anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2026/01/06 02:24]
47.128.97.43 ancienne révision (2025/12/27 07:52) restaurée
anciens_numeros:numerisation [2026/01/10 22:50] (Version actuelle)
216.73.216.219 ancienne révision (2026/01/05 13:57) restaurée
Ligne 35: Ligne 35:
 ===== outils logiciel ===== ===== outils logiciel =====
 ==== Pour la conversion jpeg en pdf ==== ==== Pour la conversion jpeg en pdf ====
-  * Le mieux [[https://gitlab.mister-muffin.de/josch/img2pdf|img2pdf.py]] une alternative qui a le gros l'avantage de ne pas recompresser les images.   +  * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. 
-  * Image Magick magick convert @list_of_files.txt ldln_0nnn.pdfMais a le désavantage de recompresser les images+  * [[https://gitlab.mister-muffin.de/josch/img2pdf|img2pdf.py]] une alternative qui a le gros l'avantage de ne pas recompresser les pdf 
 +  * aussi possible, mais lourdingue [[https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching]] 
  
 ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
Ligne 43: Ligne 45:
 pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\ pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
  
-Acrobat DC Pro, il est possible de traiter en bloc toute une arborescence de fichiers. La version convertie peut prendre la place du fichier d'origine.\\ 
-Seul problème, en cas de fichiers dans plusieurs langues, acrobat ne détecte pas automatiquement la langue. En effet, au lancement de la conversion, la langue est demandée. C'est un gros problème car cela nécessite autant de lancements manuels qu'il y a de langues.\\  
  
-Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée...  
 ==== Pour l'indexation ==== ==== Pour l'indexation ====
  
Ligne 55: Ligne 54:
   * peut aussi extraire automatiquement les images   * peut aussi extraire automatiquement les images
   * testé sur 68 fichiers, marche bien.   * testé sur 68 fichiers, marche bien.
-  * peut indexer toute une arborescence sans problème. Même en multi langues. 
  
  
Ligne 82: Ligne 80:
 ===== Conversion en .txt en batch ===== ===== Conversion en .txt en batch =====
  
-Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en C pour en faire un batch.+http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/ 
 + 
 +https://askubuntu.com/questions/211870/how-to-convert-all-pdf-files-to-text-within-a-folder-with-one-command
  
-En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat. 
 ===== Pérennité des fichiers générés ===== ===== Pérennité des fichiers générés =====
  
  • anciens_numeros/numerisation.1767662689.txt.gz
  • Dernière modification: 2026/01/06 02:24
  • de 47.128.97.43