Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/09/28 01:58] 114.119.153.112 ancienne révision (2025/07/23 18:32) restaurée |
anciens_numeros:numerisation [2025/10/08 12:26] (Version actuelle) 114.119.148.88 ancienne révision (2025/02/16 21:47) restaurée |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
*<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
- | *5 sec de scan / page | + | *5.15 sec de scan / page |
- | *? sec d'OCR / page | + | *3.5 sec d'OCR / page |
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 16: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5 / 60 / 60 = 24h pour le scan. | + | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. |
- | La génération de l' | + | [[mass: |
- | ===== Etapes ===== | + | |
- | - Massicoter | + | [[anciens_numeros: |
- | - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, | + | |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg **(non divulgué, privé)** | + | |
- | - 2 branches | + | |
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** | + | |
- | - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg **(non divulgué, privé)** | + | |
- | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | + | |
- | - extraction automatique | + | |
- | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | + | |
- | ===== outils logiciel ===== | ||
- | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== | ||
- | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
- | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
- | pdf element a aussi l'air d' | ||
- | |||
- | |||
- | ==== Pour l' | ||
- | |||
- | La méthode pour faire des multi pdf indexés : | ||
- | |||
- | choix 1 : adobe acrobat pro dc : https:// | ||
- | * génère les index, et index multi pdf. | ||
- | * peut aussi extraire automatiquement les images | ||
- | choix 2 : https:// | ||
- | * a l' | ||
- | * on génère un fichier d' | ||
- | * on fusionne (merge) tous les index en un seul | ||
- | * ne semble pas capable de faire pointer in pdf d' | ||
- | |||
- | Pour créer et utiliser un index (acrobat) | ||
- | |||
- | |||
- | {{youtube> | ||
- | |||
- | |||
- | A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l' | ||
- | |||
- | {{youtube> | ||
- | |||
- | |||
- | Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows. | ||
- | |||
- | http:// | ||
- | |||
- | |||
- | ===== Pérennité des fichiers générés ===== | ||
- | |||
- | Par respect de http:// | ||
- | |||
- | ===== Stockage sur serveur, arborescence ===== | ||
- | |||
- | En raison du nombre de pages assez gigantesque, |