anciens_numeros:numerisation

Ceci est une ancienne révision du document !


Dimensionnements et techniques pour une numérisation et indexation complète

  • ~423 numéros
  • ~40 pages / numéro
  • <5500 caractères / page
  • <1700 Ko / page en jpeg
  • ~7000 Ko / page en tiff
  • 5.15 sec de scan / page
  • 3.5 sec d'OCR / page

total pour toute la collection

  • 423 * 40 = 16920 pages
  • 423 * 40 * 5500 = 93 Mo de texte brut
  • 423 * 40 * 1700 = 28.7 Go en jpeg pleine page
  • 423 * 40 * 7000 = 119 Go en tiff pleine page
  • 423 * 40 * 5.15 / 60 / 60 = 24h pour le scan.

La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire)

La génération de l'index est totalement automatique (batch sur tous les pdf d'un répertoire). Elle est beaucoup plus rapide que l'OCR.

  1. Massicoter
  2. Scan si possible tiff 300dpi nommés ldln_0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale. (non divulgué, privé)
  3. Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln_0nnn_ppp.jpg (non divulgué, privé)
  4. 2 branches de Conversion
    1. en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf (non divulgué, privé)
    2. en texte brut ldln_0nnn.txt et images jpg numérotées ldln_0nnn_ppp.jpg (non divulgué, privé)
  5. réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf
  6. extraction automatique de toutes les sous images nommées ldln_0nnn_ppp_zz.jpg (non divulgué, privé)
  7. concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) (non divulgué, privé)

Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d'office…Mais testé et ça marche bien
Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis…)
pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html

La méthode pour faire des multi pdf indexés :

choix 1 : adobe acrobat pro dc : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html

  • génère les index, et index multi pdf.
  • peut aussi extraire automatiquement les images
  • testé sur 68 fichiers, marche bien.

choix 2 : https://www.pdfindexgenerator.com/

  • a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres)
  • on génère un fichier d'index par ldln, on préfixe avec le numéro du ldln à toutes les entrées de l'index
  • on fusionne (merge) tous les index en un seul
  • ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs.

Pour créer et utiliser un index (acrobat)

A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l'affichage des résultats est très lent, ce qui indique une mauvaise conception de la part d'adobe. Mais au moins, on a le contexte qui s'affiche en prévisualisation. ctrl + shift + f est aussi la commande pour lancer la recherche sur un fichier d'index, dans ce cas, ça doit être très rapide.

Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows.

http://www.documentsnap.com/how-to-fix-pdf-search-in-windows-7-64-bit/

En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Ne pose pas de problème pour faire l'index en auto.

Il est envisageable d'offrir une page web publique permettant de réaliser une recherche full text. Sans pour autant divulguer le contenu des textes.

Elle produirait des résultats ressemblant à :

Résultats de la recherche : 
Texte recherché : "haute temperature"
Journaux trouvés : 5
Correspondances : 5

Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 
Liste des journaux trouvés : 0219 0321 0351 0366 0371 
-----------------------------------
---MATCH IN ldln_0219---
-----------------------------------

---MATCH AT 72%---
e caractère superficiel et d'aspect punctiforme, disseminés dans la paume. Evidemment c'est le conctact avec un élément à haute température qui les a provoqués, mais il n'y a pas de caractère de gravité". Comme nous l'avons dit, ce sont des décla

-----------------------------------
---MATCH IN ldln_0321---
-----------------------------------

---MATCH AT 20%---
e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l'ampleur du projet européen JET. Pour la foudre e

-----------------------------------
---MATCH IN ldln_0351---
-----------------------------------

---MATCH AT 31%---
l'aide de l'enquêtrice Linda Howe, et il a pu établir notamment que les bords de certaines plaies avaient été chauffés à haute température, comme pour une découpe au laser. On ne trouve pas de traces autour des animaux , ni de pas, ni de lut

-----------------------------------
---MATCH IN ldln_0366---
-----------------------------------

---MATCH AT 06%---
vétérinaire inspecte la carcasse, et découvre que l'oreille gauche a en outre été découpée, avec un instrument chauffé à haute température, qui a cautérisé la plaie. Or, lorsque le fils Diez a fait une vidéo de la bête morte, le samedi, l'oreill

-----------------------------------
---MATCH IN ldln_0371---
-----------------------------------

---MATCH AT 13%---
one où se trouvait l'objet inconnu : ces cailloux, et seulement ceux-là, s'effritaient comme s'ils avaient été calcinés à haute température. Je MM. Caron et Dewilde, sur les lieux de l'apparition (photo France Soir) vis des "spécialistes" pas
  • anciens_numeros/numerisation.1755134600.txt.gz
  • Dernière modification: 2025/08/14 03:23
  • de 144.76.32.151