anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2025/08/14 03:24]
144.76.32.151 ancienne révision (2025/08/09 11:07) restaurée
anciens_numeros:numerisation [2025/08/17 19:01] (Version actuelle)
114.119.153.112 ancienne révision (2025/04/14 17:40) restaurée
Ligne 8: Ligne 8:
   *<1700 Ko / page en jpeg   *<1700 Ko / page en jpeg
   *~7000 Ko / page en tiff   *~7000 Ko / page en tiff
-  *5 sec de scan / page   +  *5.15 sec de scan / page   
-  *sec d'OCR / page+  *3.5 sec d'OCR / page
      
 total pour toute la collection total pour toute la collection
Ligne 16: Ligne 16:
   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page
   *423 * 40 * 7000 = 119 Go en tiff pleine page   *423 * 40 * 7000 = 119 Go en tiff pleine page
-  *423 * 40 * 5 / 60 / 60 = 24h pour le scan.+  *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan.
  
-La génération de l'index est totalement automatique.+La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) 
 + 
 +La génération de l'index est totalement automatique (batch sur tous les pdf d'un répertoire). Elle est beaucoup plus rapide que l'OCR.
 ===== Etapes ===== ===== Etapes =====
  
   - Massicoter   - Massicoter
-  - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. **(non divulgué, privé)** +  - Scan si possible tiff 300dpi nommés ldln_0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. **(non divulgué, privé)** 
-  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg **(non divulgué, privé)**+  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln_0nnn_ppp.jpg **(non divulgué, privé)**
   - 2 branches de Conversion   - 2 branches de Conversion
-    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** +    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** 
-    - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg **(non divulgué, privé)**+    - en texte brut ldln_0nnn.txt et images jpg numérotées ldln_0nnn_ppp.jpg **(non divulgué, privé)**
   - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf   - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf
-  - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg **(non divulgué, privé)**+  - extraction automatique de toutes les sous images nommées ldln_0nnn_ppp_zz.jpg **(non divulgué, privé)**
   - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)**   - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)**
  
 ===== outils logiciel ===== ===== outils logiciel =====
-==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== +==== Pour la conversion jpeg en pdf ==== 
-Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...\\+  * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. 
 +  * [[https://gitlab.mister-muffin.de/josch/img2pdf|img2pdf.py]] une alternative qui a le gros l'avantage de ne pas recompresser les pdf 
 +  * aussi possiblemais lourdingue [[https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching]] 
 + 
 + 
 +==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== 
 +Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\
 Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\
 pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\ pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
Ligne 45: Ligne 53:
   * génère les index, et index multi pdf.   * génère les index, et index multi pdf.
   * peut aussi extraire automatiquement les images   * peut aussi extraire automatiquement les images
 +  * testé sur 68 fichiers, marche bien.
 +
 +
 choix 2 : https://www.pdfindexgenerator.com/  choix 2 : https://www.pdfindexgenerator.com/ 
   * a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres)   * a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres)
-  * on génère un fichier d'index par ldln, on prepend le numéro du ldln à toutes les entrées de l'index+  * on génère un fichier d'index par ldln, on préfixe avec le numéro du ldln à toutes les entrées de l'index
   * on fusionne (merge) tous les index en un seul   * on fusionne (merge) tous les index en un seul
   * ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs.   * ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs.
Ligne 66: Ligne 77:
 http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/ http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/
  
 +
 +===== Conversion en .txt en batch =====
 +
 +http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/
 +
 +https://askubuntu.com/questions/211870/how-to-convert-all-pdf-files-to-text-within-a-folder-with-one-command
  
 ===== Pérennité des fichiers générés ===== ===== Pérennité des fichiers générés =====
Ligne 73: Ligne 90:
 ===== Stockage sur serveur, arborescence ===== ===== Stockage sur serveur, arborescence =====
  
-En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.+En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Ne pose pas de problème pour faire l'index en auto. 
 + 
 +===== Service de recherche full text en ligne ===== 
 + 
 +Il est envisageable d'offrir une page web publique permettant de réaliser une recherche full text. Sans pour autant divulguer le contenu des textes. 
 + 
 +Elle produirait des résultats ressemblant à :  
 + 
 +<code> 
 +Résultats de la recherche :  
 +Texte recherché : "haute temperature" 
 +Journaux trouvés : 5 
 +Correspondances : 5 
 + 
 +Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425  
 +Liste des journaux trouvés : 0219 0321 0351 0366 0371  
 +----------------------------------- 
 +---MATCH IN ldln_0219--- 
 +----------------------------------- 
 + 
 +---MATCH AT 72%--- 
 +e caractère superficiel et d'aspect punctiforme, disseminés dans la paume. Evidemment c'est le conctact avec un élément à haute température qui les a provoqués, mais il n'y a pas de caractère de gravité". Comme nous l'avons dit, ce sont des décla 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0321--- 
 +----------------------------------- 
 + 
 +---MATCH AT 20%--- 
 +e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l'ampleur du projet européen JET. Pour la foudre e 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0351--- 
 +----------------------------------- 
 + 
 +---MATCH AT 31%--- 
 +l'aide de l'enquêtrice Linda Howe, et il a pu établir notamment que les bords de certaines plaies avaient été chauffés à haute température, comme pour une découpe au laser. On ne trouve pas de traces autour des animaux , ni de pas, ni de lut 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0366--- 
 +----------------------------------- 
 + 
 +---MATCH AT 06%--- 
 +vétérinaire inspecte la carcasse, et découvre que l'oreille gauche a en outre été découpée, avec un instrument chauffé à haute température, qui a cautérisé la plaie. Or, lorsque le fils Diez a fait une vidéo de la bête morte, le samedi, l'oreill 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0371--- 
 +----------------------------------- 
 + 
 +---MATCH AT 13%--- 
 +one où se trouvait l'objet inconnu : ces cailloux, et seulement ceux-là, s'effritaient comme s'ils avaient été calcinés à haute température. Je MM. Caron et Dewilde, sur les lieux de l'apparition (photo France Soir) vis des "spécialistes" pas 
 +</code>
  • anciens_numeros/numerisation.1755134675.txt.gz
  • Dernière modification: 2025/08/14 03:24
  • de 144.76.32.151