mass:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
mass:numerisation [2026/05/30 17:57]
47.128.97.125 ancienne révision (2026/05/08 00:43) restaurée
mass:numerisation [2026/05/30 23:23] (Version actuelle)
47.128.97.130 ancienne révision (2026/05/12 04:09) restaurée
Ligne 34: Ligne 34:
  
  
-==== Etape 6.a : Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====+==== Etape 6 : Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
 Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\ Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\
  
Ligne 42: Ligne 42:
 Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée...  Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée... 
  
-==== Etape 7 : l'indexation ====+==== Pour l'indexation ====
  
 La méthode pour faire des multi pdf indexés : le même logiciel La méthode pour faire des multi pdf indexés : le même logiciel
Ligne 68: Ligne 68:
  
  
-===== Etape 8.a : Conversion en .txt en batch =====+===== Conversion en .txt en batch =====
  
-Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en python pour en faire un batch.+Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en pour en faire un batch.
  
 En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat. En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.
  • mass/numerisation.1780156668.txt.gz
  • Dernière modification: 2026/05/30 17:57
  • de 47.128.97.125