Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/09/21 03:37] 196.112.220.114 ancienne révision (2025/09/08 20:15) restaurée |
anciens_numeros:numerisation [2025/10/08 12:26] (Version actuelle) 114.119.148.88 ancienne révision (2025/02/16 21:47) restaurée |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
*<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
- | *5 sec de scan / page | + | *5.15 sec de scan / page |
+ | *3.5 sec d'OCR / page | ||
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 15: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation. | + | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. |
- | ===== Etapes ===== | + | [[mass: |
- | - Massicoter | + | [[anciens_numeros: |
- | - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, | + | |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg | + | |
- | - 2 branches | + | |
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf | + | |
- | - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg | + | |
- | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | + | |
- | - extraction automatique | + | |
- | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) | + | |
- | ===== outils logiciel ===== | ||
- | |||
- | La méthode pour faire des multi pdf indexés : | ||
- | |||
- | choix 1 : adobe acrobat pro dc : https:// | ||
- | * génère les index, et index multi pdf. | ||
- | * peut aussi extraire automatiquement les images | ||
- | choix 2 : https:// | ||
- | * a l' | ||
- | * on génère un fichier d' | ||
- | * on fusionne (merge) tous les index en un seul | ||
- | * ne semble pas capable de faire pointer in pdf d' | ||
- | |||
- | ===== Pérennité des fichiers générés ===== | ||
- | |||
- | Par respect de http:// | ||
- | |||
- | ===== Stockage sur serveur, arborescence ===== | ||
- | |||
- | En raison du nombre de pages assez gigantesque, |