anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2026/05/30 13:12]
47.128.97.10 ancienne révision (2026/05/26 18:41) restaurée
anciens_numeros:numerisation [2026/05/30 22:05] (Version actuelle)
216.73.216.82 ancienne révision (2026/05/28 04:54) restaurée
Ligne 8: Ligne 8:
   *<1700 Ko / page en jpeg   *<1700 Ko / page en jpeg
   *~7000 Ko / page en tiff   *~7000 Ko / page en tiff
-  *5 sec de scan / page   +  *5.15 sec de scan / page   
-  *sec d'OCR / page+  *3.5 sec d'OCR / page
      
 total pour toute la collection total pour toute la collection
Ligne 16: Ligne 16:
   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page
   *423 * 40 * 7000 = 119 Go en tiff pleine page   *423 * 40 * 7000 = 119 Go en tiff pleine page
-  *423 * 40 * 5 / 60 / 60 = 24h pour le scan.+  *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan.
  
-La génération de l'index est totalement automatique.+La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) 
 + 
 +La génération de l'index est totalement automatique (batch sur tous les pdf d'un répertoire). Elle est beaucoup plus rapide que l'OCR.
 ===== Etapes ===== ===== Etapes =====
  
   - Massicoter   - Massicoter
-  - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. +  - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. **(non divulgué, privé)** 
-  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg+  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg **(non divulgué, privé)**
   - 2 branches de Conversion   - 2 branches de Conversion
-    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf +    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** 
-    - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg+    - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg **(non divulgué, privé)**
   - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf   - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf
-  - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg +  - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg **(non divulgué, privé)** 
-  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas)+  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)**
  
 ===== outils logiciel ===== ===== outils logiciel =====
 +==== Pour la conversion jpeg en pdf ====
 +  * Image Magick : magick convert @list_of_files.txt ldln_xxxx.pdf. Développé un script pour génération automatique de tous les pdf.
 +  * img2pdf.py une alternative qui a le gros l'avantage de ne pas recompresser les pdf
 +
 +
 +==== Pour la conversion pdf en pdf, avec recherche de texte possible (OCR) ====
 +Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...\\
 +Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\
 +pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
 +
 +pour générer les pdf automatiquement par répertoire
 +
 +https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching
 +
 +==== Pour l'indexation ====
  
 La méthode pour faire des multi pdf indexés :  La méthode pour faire des multi pdf indexés : 
  • anciens_numeros/numerisation.1780139554.txt.gz
  • Dernière modification: 2026/05/30 13:12
  • de 47.128.97.10
  • Actuellement bloqué par: 47.128.97.104