Techniques et outils pour une numérisation et indexation complète

Avec Adobe Acrobat DC Pro

La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire, ou toute une arborescence)
La génération de l'index est totalement automatique et récursive (batch sur tous les pdf d'un répertoire, ou toute une arborescence). Elle est beaucoup plus rapide que l'OCR.

Cependant la conversion des images vers les pdf n'est pas automatique sur une arborescence

Massicoter
Scan en jpeg 300dpi qualité maximale. (non divulgué, privé)
Un répertoire par numéro. Le nom du répertoire sera utilisé pour nommer le pdf créé.
Optionnel : Recadrage en batch (selon les format des journaux) avec xnview ou autres et conversion de préférence dans ce cas avec des scann en tiff, sauvegarde en jpeg (non divulgué, privé)
Conversions récursive dans l'arborescence de fichiers
1. en pdf, concaténation des jpg, nommé selon le nom des répertoires (non divulgué, privé)
Ocr-isation
1. en pdf classique (avec texte OCRisé) par Acrobat DC (non divulgué, privé)
2. réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. (non divulgué, privé)
Conversion en texte à partir des pdf ocrisés.
1. en texte brut (non divulgué, privé)
2. concaténation (automatique) de tout les .txt en un seul fichier (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) (non divulgué, privé)

En utilisant les outils spécialement développés :

https://albion2000.github.io/tools-jpeg2pdf/

https://github.com/albion2000/tools-jpeg2pdf/

https://github.com/albion2000/tools-jpeg2pdf/releases

Pour la conversion pdf en pdf avec recherche de texte possible (OCR)

Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office…Mais testé et ça marche bien

Acrobat DC Pro, il est possible de traiter en bloc toute une arborescence de fichiers. La version convertie peut prendre la place du fichier d'origine.
Seul problème, en cas de fichiers dans plusieurs langues, acrobat ne détecte pas automatiquement la langue. En effet, au lancement de la conversion, la langue est demandée. C'est un gros problème car cela nécessite autant de lancements manuels qu'il y a de langues.

Bizarrement, au moins dans la version d'essai, le traitement est effectué sur un seul processeur. Alors que c'est là le traitement le plus lent dans la chaîne, environ 3mn par pdf… ça pourrait tourner 8x+ vite s'ils y passaient une journée…

La méthode pour faire des multi pdf indexés : le même logiciel

Adobe acrobat pro dc : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html

génère les index, et index multi pdf.
peut aussi extraire automatiquement les images
testé sur 100+ fichiers, marche bien.
peut indexer toute une arborescence sans problème. Même en multi langues.

Pour créer et utiliser un index (acrobat dc pro)

A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l'affichage des résultats est très lent, ce qui indique une mauvaise conception de la part d'adobe. Mais au moins, on a le contexte qui s'affiche en prévisualisation. ctrl + shift + f est aussi la commande pour lancer la recherche sur un fichier d'index, dans ce cas, ça doit être très rapide.

Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows.

http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/

Par utilisation de pdftotext.exe de la suite xpdf avec un petit programme écrit en C pour en faire un batch.

En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.

Par respect de http://www.ufowaves.org/ltdsp/ltdsp/fileformats

En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Ne pose pas de problème pour faire l'index en auto.

Service de recherche full text en ligne

Il est envisageable d'offrir une page web publique permettant de réaliser une recherche full text. Sans pour autant divulguer le contenu des textes.

Elle produirait des résultats ressemblant à :

Résultats de la recherche : 
Texte recherché : "haute temperature"
Journaux trouvés : 5
Correspondances : 5

Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 
Liste des journaux trouvés : 0219 0321 0351 0366 0371 
-----------------------------------
---MATCH IN ldln_0219---
-----------------------------------

---MATCH AT 72%---
e caractère superficiel et d'aspect punctiforme, disseminés dans la paume. Evidemment c'est le conctact avec un élément à haute température qui les a provoqués, mais il n'y a pas de caractère de gravité". Comme nous l'avons dit, ce sont des décla

-----------------------------------
---MATCH IN ldln_0321---
-----------------------------------

---MATCH AT 20%---
e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l'ampleur du projet européen JET. Pour la foudre e

-----------------------------------
---MATCH IN ldln_0351---
-----------------------------------

---MATCH AT 31%---
l'aide de l'enquêtrice Linda Howe, et il a pu établir notamment que les bords de certaines plaies avaient été chauffés à haute température, comme pour une découpe au laser. On ne trouve pas de traces autour des animaux , ni de pas, ni de lut

-----------------------------------
---MATCH IN ldln_0366---
-----------------------------------

---MATCH AT 06%---
vétérinaire inspecte la carcasse, et découvre que l'oreille gauche a en outre été découpée, avec un instrument chauffé à haute température, qui a cautérisé la plaie. Or, lorsque le fils Diez a fait une vidéo de la bête morte, le samedi, l'oreill

-----------------------------------
---MATCH IN ldln_0371---
-----------------------------------

---MATCH AT 13%---
one où se trouvait l'objet inconnu : ces cailloux, et seulement ceux-là, s'effritaient comme s'ils avaient été calcinés à haute température. Je MM. Caron et Dewilde, sur les lieux de l'apparition (photo France Soir) vis des "spécialistes" pas