mass:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
mass:numerisation [2026/01/08 21:30]
47.128.113.15 ancienne révision (2025/12/25 21:04) restaurée
mass:numerisation [2026/01/10 06:35] (Version actuelle)
114.119.129.71 ancienne révision (2025/12/12 01:37) restaurée
Ligne 1: Ligne 1:
 ====== Techniques et outils pour une numérisation et indexation complète ====== ====== Techniques et outils pour une numérisation et indexation complète ======
  
-Avec Adobe Acrobat DC Pro ou Omnipage+Avec Adobe Acrobat DC Pro
   * La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire, ou toute une arborescence)   * La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire, ou toute une arborescence)
   * La génération de l'index est totalement automatique et récursive (batch sur tous les pdf d'un répertoire, ou toute une arborescence). Elle est beaucoup plus rapide que l'OCR.   * La génération de l'index est totalement automatique et récursive (batch sur tous les pdf d'un répertoire, ou toute une arborescence). Elle est beaucoup plus rapide que l'OCR.
- 
-Si les fichiers sont stockés sur un serveur NAS Synology, le serveur peut offrir un service d'indexation et de recherche. 
  
 Cependant la conversion des images vers les pdf n'est pas automatique sur une arborescence Cependant la conversion des images vers les pdf n'est pas automatique sur une arborescence
Ligne 46: Ligne 44:
 Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée...  Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf... ça pourrait tourner 8x+ vite s'ils y passaient une journée... 
  
-=== Nuance Omnipage ===+=== Omnipage ===
 Semble aussi faire l'affaire.  Semble aussi faire l'affaire. 
  
Ligne 53: Ligne 51:
 Les deux versions exploitent tous les processeurs et reconnaissent automatiquement la langue. Ainsi Omnipage résout les deux problèmes de Acrobat DC Pro, sensiblement au même prix et sans abonenment. Les deux versions exploitent tous les processeurs et reconnaissent automatiquement la langue. Ainsi Omnipage résout les deux problèmes de Acrobat DC Pro, sensiblement au même prix et sans abonenment.
  
-Version d'éval : https://www.nuance.com/fr-fr/print-capture-and-pdf-solutions/optical-character-recognition/omnipage/omnipage-ultimate-trial-version.html+Version d'éval : http://www.nuance.fr/for-business/by-product/omnipage/ultimate/trial-version/index.htm
  
-Tableau comparatif des version standard vs ultimate : https://www.nuance.com/content/dam/nuance/fr_fr/collateral/imaging/comparison-chart/cc-omnipagepro18-vs-ultimate-fr-fr.pdf+Tableau comparatif des version standard vs ultimate : http://www.nuance.fr/ucmprod/groups/imaging/@web-fr/documents/collateral/nc_017327.pdf
  
-=== Google Vision Api === 
- 
-Pour les petits pdfs, résultats de scans de mauvaise qualité, trop illisibles pour Nuance Omnipage, google propose une api (interface programmatique web) pour l'extraction de texte qui est beaucoup plus performante. Le résultat du traitement est un bloc de texte. Le coût est proportionnel à la quantité de données traitées 
 ==== Etape 7 : l'indexation ==== ==== Etape 7 : l'indexation ====
- 
-=== Acrobat DC Pro === 
  
 La méthode pour faire des multi pdf indexés : le même logiciel La méthode pour faire des multi pdf indexés : le même logiciel
Ligne 82: Ligne 75:
 {{youtube>qmmQPemx05E?medium}} {{youtube>qmmQPemx05E?medium}}
  
-=== Windows === 
  
 Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows.  Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows. 
Ligne 88: Ligne 80:
 http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/ http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/
  
-=== Omnipage === 
  
-On peut aussi indexer des pdf en masse. Mais pas clair si le fichier d'index produit est compatible avec acrobat reader. 
 ===== Etape 8.a : Conversion en .txt en batch ===== ===== Etape 8.a : Conversion en .txt en batch =====
  
  • mass/numerisation.1767904215.txt.gz
  • Dernière modification: 2026/01/08 21:30
  • de 47.128.113.15