anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2026/02/27 12:50]
47.128.51.144 ancienne révision (2026/02/22 11:29) restaurée
anciens_numeros:numerisation [2026/02/28 01:50] (Version actuelle)
47.128.126.140 ancienne révision (2026/02/23 15:16) restaurée
Ligne 1: Ligne 1:
 ====== Dimensionnements et techniques pour une numérisation et indexation complète ====== ====== Dimensionnements et techniques pour une numérisation et indexation complète ======
  
-Chiffres+===== Chiffres ===== 
   *~423 numéros   *~423 numéros
   *~40 pages / numéro   *~40 pages / numéro
   *<5500 caractères / page   *<5500 caractères / page
-  *<1700Ko jpeg par page+  *<1700 Ko / page en jpeg 
 +  *~7000 Ko / page en tiff 
 +  *5 sec de scan / page  
      
-total toute la collection +total pour toute la collection
-  *423 * 40 * 5500 = 93Mo+
   *423 * 40 = 16920 pages   *423 * 40 = 16920 pages
-  *423 * 40 * 1700 = 28.7 Go+  *423 * 40 * 5500 = 93 Mo de texte brut 
 +  *423 * 40 * 1700 = 28.7 Go en jpeg pleine page 
 +  *423 * 40 * 7000 = 119 Go en tiff pleine page 
 +  *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation. 
 + 
 +===== Technique ===== 
 + 
 +  - Massicoter 
 +  - Scan si possible tiff 300dpi nommés ldlnxxxx_yyy.tiff, sinon en jpeg 300dpi qualité maximale. 
 +  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldlnxxxx_yyy.jpg 
 +  - 2 branches de Conversion 
 +    - en pdf classique (avec recherche texte) par Acrobat DC, un pdf par ldln. ldlnxxxx.pdf 
 +    - en texte brut ldlnxxxx.txt et images jpg numérotées ldlnxxxx_yyy.jpg 
 +  - réalisation d'un index complet automatiquement par Acrobat DC regroupant tout en un seul pdf chapeau. ldln_vzzz.pdf 
 +  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique) 
 + 
 +La méthode pour faire des multi pdf indexés : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html 
 + 
 +pourrait peut-être aussi utiliser https://www.pdfindexgenerator.com/ 
 + 
 +===== Pérennité des fichiers générés ===== 
 + 
 +Par respect de http://www.ufowaves.org/ltdsp/ltdsp/fileformats 
 + 
 +===== Stockage sur serveur, arborescence ===== 
 + 
 +En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.
  • anciens_numeros/numerisation.1772193018.txt.gz
  • Dernière modification: 2026/02/27 12:50
  • de 47.128.51.144