anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
anciens_numeros:numerisation [2025/10/08 12:23]
114.119.150.33 ancienne révision (2025/04/20 15:02) restaurée
anciens_numeros:numerisation [2025/10/08 12:26] (Version actuelle)
114.119.148.88 ancienne révision (2025/02/16 21:47) restaurée
Ligne 8: Ligne 8:
   *<1700 Ko / page en jpeg   *<1700 Ko / page en jpeg
   *~7000 Ko / page en tiff   *~7000 Ko / page en tiff
-  *5 sec de scan / page  +  *5.15 sec de scan / page   
 +  *3.5 sec d'OCR / page
      
 total pour toute la collection total pour toute la collection
Ligne 15: Ligne 16:
   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page
   *423 * 40 * 7000 = 119 Go en tiff pleine page   *423 * 40 * 7000 = 119 Go en tiff pleine page
-  *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation.+  *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan.
  
-===== Etapes =====+[[mass:numerisation|Numérisation et indexation en masse]]
  
-  - Massicoter +[[anciens_numeros:numerisation2|Version obsolete]] de la suite de cette page, pour ref.
-  - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. +
-  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg +
-  - 2 branches de Conversion +
-    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf +
-    - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg +
-  - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf +
-  - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg +
-  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas)+
  
-===== outils logiciel ===== 
- 
-La méthode pour faire des multi pdf indexés :  
- 
-choix 1 : adobe acrobat pro dc : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html 
-  * génère les index, et index multi pdf. 
-  * peut aussi extraire automatiquement les images 
-choix 2 : https://www.pdfindexgenerator.com/  
-  * a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres) 
-  * on génère un fichier d'index par ldln, on prepend le numéro du ldln à toutes les entrées de l'index 
-  * on fusionne (merge) tous les index en un seul 
-  * ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs. 
- 
-Pour créer et utiliser un index (acrobat) 
- 
-https://youtu.be/kRz1O793OK0 
- 
-A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. C'est aussi une méthode pour ouvrir un index et faire une recherche dessus. 
- 
-https://youtu.be/qmmQPemx05E 
- 
- 
-===== Pérennité des fichiers générés ===== 
- 
-Par respect de http://www.ufowaves.org/ltdsp/ltdsp/fileformats 
- 
-===== Stockage sur serveur, arborescence ===== 
- 
-En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto. 
  • anciens_numeros/numerisation.txt
  • Dernière modification: 2025/10/08 12:26
  • de 114.119.148.88