Différences

Ci-dessous, les différences entre deux révisions de la page.

--- anciens_numeros:numerisation [2026/02/26 03:07]
47.128.34.0 ancienne révision (2026/02/20 17:03) restaurée
+++ anciens_numeros:numerisation [2026/02/28 01:50] (Version actuelle)
47.128.126.140 ancienne révision (2026/02/23 15:16) restaurée
@@ Ligne 8: / Ligne 8: @@
   *<1700 Ko / page en jpeg
   *~7000 Ko / page en tiff
-  *5.15 sec de scan / page
+  *5 sec de scan / page
-  *3.5 sec d'OCR / page
 total pour toute la collection
@@ Ligne 16: / Ligne 15: @@
   *423 * 40 * 1700 = 28.7 Go en jpeg pleine page
   *423 * 40 * 7000 = 119 Go en tiff pleine page
-  *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan.
+  *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation.
-La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire)
+===== Technique =====
-La génération de l'index est totalement automatique (batch sur tous les pdf d'un répertoire). Elle est beaucoup plus rapide que l'OCR.
-===== Etapes =====
   - Massicoter
-  - Scan si possible tiff 300dpi nommés ldln_0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. **(non divulgué, privé)**
+  - Scan si possible tiff 300dpi nommés ldlnxxxx_yyy.tiff, sinon en jpeg 300dpi qualité maximale.
-  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln_0nnn_ppp.jpg **(non divulgué, privé)**
+  - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldlnxxxx_yyy.jpg
   - 2 branches de Conversion
-    - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)**
+    - en pdf classique (avec recherche texte) par Acrobat DC, un pdf par ldln. ldlnxxxx.pdf
-    - en texte brut ldln_0nnn.txt et images jpg numérotées ldln_0nnn_ppp.jpg **(non divulgué, privé)**
+    - en texte brut ldlnxxxx.txt et images jpg numérotées ldlnxxxx_yyy.jpg
-  - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf
+  - réalisation d'un index complet automatiquement par Acrobat DC regroupant tout en un seul pdf chapeau. ldln_vzzz.pdf
-  - extraction automatique de toutes les sous images nommées ldln_0nnn_ppp_zz.jpg **(non divulgué, privé)**
+  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique)
-  - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)**
-===== outils logiciel =====
-==== Pour la conversion jpeg en pdf ====
-  * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf.
-  * img2pdf.py une alternative qui a le gros l'avantage de ne pas recompresser les pdf
-  * aussi possible, mais lourdingue [[https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching]]
-==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
-Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\
-Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\
-pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
-==== Pour l'indexation ====
-La méthode pour faire des multi pdf indexés :
-choix 1 : adobe acrobat pro dc : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html
-  * génère les index, et index multi pdf.
-  * peut aussi extraire automatiquement les images
-  * testé sur 68 fichiers, marche bien.
-choix 2 : https://www.pdfindexgenerator.com/
-  * a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres)
-  * on génère un fichier d'index par ldln, on préfixe avec le numéro du ldln à toutes les entrées de l'index
-  * on fusionne (merge) tous les index en un seul
-  * ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs.
-Pour créer et utiliser un index (acrobat)
-{{youtube>kRz1O793OK0?medium}}
-A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l'affichage des résultats est très lent, ce qui indique une mauvaise conception de la part d'adobe. Mais au moins, on a le contexte qui s'affiche en prévisualisation. ctrl + shift + f est aussi la commande pour lancer la recherche sur un fichier d'index, dans ce cas, ça doit être très rapide.
-{{youtube>qmmQPemx05E?medium}}
-Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows.
-http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/
-===== Conversion en .txt en batch =====
-http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/
+La méthode pour faire des multi pdf indexés : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html
-https://askubuntu.com/questions/211870/how-to-convert-all-pdf-files-to-text-within-a-folder-with-one-command
+pourrait peut-être aussi utiliser https://www.pdfindexgenerator.com/
 ===== Pérennité des fichiers générés =====
@@ Ligne 90: / Ligne 38: @@
 ===== Stockage sur serveur, arborescence =====
-En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Ne pose pas de problème pour faire l'index en auto.
+En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.