anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2026/01/05 07:39]
114.119.142.207 ancienne révision (2025/11/16 15:30) restaurée
anciens_numeros:numerisation [2026/01/10 03:03] (Version actuelle)
47.128.34.248 ancienne révision (2025/12/30 01:03) restaurée
Ligne 35: Ligne 35:
 ===== outils logiciel ===== ===== outils logiciel =====
 ==== Pour la conversion jpeg en pdf ==== ==== Pour la conversion jpeg en pdf ====
-  * Image Magick magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. +  * Le mieux [[https://gitlab.mister-muffin.de/josch/img2pdf|img2pdf.py]] une alternative qui a le gros l'avantage de ne pas recompresser les images.   
-  * img2pdf.py une alternative qui a le gros l'avantage de ne pas recompresser les pdf +  * Image Magick magick convert @list_of_files.txt ldln_0nnn.pdfMais a le désavantage de recompresser les images
-  * aussi possible, mais lourdingue [[https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching]] +
  
 ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
Ligne 44: Ligne 42:
 Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\
 pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\ pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
 +
 +Acrobat DC Pro, il est possible de traiter en bloc toute une arborescence de fichiers. La version convertie peut prendre la place du fichier d'origine.\\
 +Seul problème, en cas de fichiers dans plusieurs langues, acrobat ne détecte pas automatiquement la langue. En effet, au lancement de la conversion, la langue est demandée. C'est un gros problème car cela nécessite autant de lancements manuels qu'il y a de langues.\\ 
  
  
Ligne 54: Ligne 55:
   * peut aussi extraire automatiquement les images   * peut aussi extraire automatiquement les images
   * testé sur 68 fichiers, marche bien.   * testé sur 68 fichiers, marche bien.
 +  * peut indexer toute une arborescence sans problème. Même en multi langues.
  
  
Ligne 80: Ligne 82:
 ===== Conversion en .txt en batch ===== ===== Conversion en .txt en batch =====
  
-http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/ +Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en C pour en faire un batch.
- +
-https://askubuntu.com/questions/211870/how-to-convert-all-pdf-files-to-text-within-a-folder-with-one-command+
  
 +En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.
 ===== Pérennité des fichiers générés ===== ===== Pérennité des fichiers générés =====
  
  • anciens_numeros/numerisation.1767595197.txt.gz
  • Dernière modification: 2026/01/05 07:39
  • de 114.119.142.207