mass:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
mass:numerisation [2025/08/15 01:33]
114.119.158.204 ancienne révision (2025/04/25 12:23) restaurée
mass:numerisation [2025/08/17 08:08] (Version actuelle)
114.119.142.207 ancienne révision (2025/04/14 12:18) restaurée
Ligne 17: Ligne 17:
   - Ocr-isation   - Ocr-isation
     - en pdf classique (avec texte OCRisé) par Acrobat DC **(non divulgué, privé)**     - en pdf classique (avec texte OCRisé) par Acrobat DC **(non divulgué, privé)**
-    réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. **(non divulgué, privé)**+  Réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. **(non divulgué, privé)**
   - Conversion en texte à partir des pdf ocrisés.   - Conversion en texte à partir des pdf ocrisés.
     - en texte brut **(non divulgué, privé)**     - en texte brut **(non divulgué, privé)**
Ligne 34: Ligne 34:
  
  
-==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====+==== Etape 6.a : Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== 
 +=== Acrobat DC Pro === 
 Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\ Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\
  
Ligne 42: Ligne 44:
 Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée...  Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée... 
  
-==== Pour l'indexation ====+=== Omnipage === 
 +Semble aussi faire l'affaire.  
 + 
 +199€ en ultimate, 99€ en version standard (2018) 
 + 
 +Les deux versions exploitent tous les processeurs et reconnaissent automatiquement la langue. Ainsi Omnipage résout les deux problèmes de Acrobat DC Pro, sensiblement au même prix et sans abonenment. 
 + 
 +Version d'éval : http://www.nuance.fr/for-business/by-product/omnipage/ultimate/trial-version/index.htm 
 + 
 +Tableau comparatif des version standard vs ultimate : http://www.nuance.fr/ucmprod/groups/imaging/@web-fr/documents/collateral/nc_017327.pdf 
 + 
 +==== Etape 7 : l'indexation ====
  
 La méthode pour faire des multi pdf indexés : le même logiciel La méthode pour faire des multi pdf indexés : le même logiciel
Ligne 68: Ligne 81:
  
  
-===== Conversion en .txt en batch =====+===== Etape 8.a : Conversion en .txt en batch =====
  
-Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en pour en faire un batch.+Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en python pour en faire un batch.
  
 En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat. En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.
  • mass/numerisation.1755214380.txt.gz
  • Dernière modification: 2025/08/15 01:33
  • de 114.119.158.204