Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
mass:numerisation [2025/09/20 19:47]
200.233.133.115 ancienne révision (2025/09/08 16:26) restaurée
mass:numerisation [2025/10/09 01:56] (Version actuelle)
114.119.158.204 ancienne révision (2025/03/19 03:43) restaurée
Ligne 1: Ligne 1:
 ====== Techniques et outils pour une numérisation et indexation complète ====== ====== Techniques et outils pour une numérisation et indexation complète ======
  
-Avec Adobe Acrobat DC Pro ou Omnipage+Avec Adobe Acrobat DC Pro
   * La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire, ou toute une arborescence)   * La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire, ou toute une arborescence)
   * La génération de l'index est totalement automatique et récursive (batch sur tous les pdf d'un répertoire, ou toute une arborescence). Elle est beaucoup plus rapide que l'OCR.   * La génération de l'index est totalement automatique et récursive (batch sur tous les pdf d'un répertoire, ou toute une arborescence). Elle est beaucoup plus rapide que l'OCR.
- 
-Si les fichiers sont stockés sur un serveur NAS Synology, le serveur peut offrir un service d'indexation et de recherche. 
  
 Cependant la conversion des images vers les pdf n'est pas automatique sur une arborescence Cependant la conversion des images vers les pdf n'est pas automatique sur une arborescence
Ligne 19: Ligne 17:
   - Ocr-isation   - Ocr-isation
     - en pdf classique (avec texte OCRisé) par Acrobat DC **(non divulgué, privé)**     - en pdf classique (avec texte OCRisé) par Acrobat DC **(non divulgué, privé)**
-  Réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. **(non divulgué, privé)**+    réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. **(non divulgué, privé)**
   - Conversion en texte à partir des pdf ocrisés.   - Conversion en texte à partir des pdf ocrisés.
     - en texte brut **(non divulgué, privé)**     - en texte brut **(non divulgué, privé)**
Ligne 36: Ligne 34:
  
  
-==== Etape 6.a : Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== +==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
-=== Acrobat DC Pro === +
 Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\ Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office...Mais testé et ça marche bien\\
  
Ligne 46: Ligne 42:
 Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée...  Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée... 
  
-=== Omnipage === +==== Pour l'indexation ====
-Semble aussi faire l'affaire.  +
- +
-199€ en ultimate, 99€ en version standard (2018) +
- +
-Les deux versions exploitent tous les processeurs et reconnaissent automatiquement la langue. Ainsi Omnipage résout les deux problèmes de Acrobat DC Pro, sensiblement au même prix et sans abonenment. +
- +
-Version d'éval : http://www.nuance.fr/for-business/by-product/omnipage/ultimate/trial-version/index.htm +
- +
-Tableau comparatif des version standard vs ultimate : http://www.nuance.fr/ucmprod/groups/imaging/@web-fr/documents/collateral/nc_017327.pdf +
- +
-==== Etape 7 : l'indexation ==== +
- +
-=== Acrobat DC Pro ===+
  
 La méthode pour faire des multi pdf indexés : le même logiciel La méthode pour faire des multi pdf indexés : le même logiciel
Ligne 79: Ligne 62:
 {{youtube>qmmQPemx05E?medium}} {{youtube>qmmQPemx05E?medium}}
  
-=== Windows === 
  
 Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows.  Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows. 
Ligne 85: Ligne 67:
 http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/ http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/
  
-=== Omnipage === 
- 
-Possible ? 
  
-===== Etape 8.a : Conversion en .txt en batch =====+===== Conversion en .txt en batch =====
  
-Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en python pour en faire un batch.+Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en pour en faire un batch.
  
 En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat. En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.
  • mass/numerisation.1758390434.txt.gz
  • Dernière modification: 2025/09/20 19:47
  • de 200.233.133.115