anciens_numeros:numerisation

Ceci est une ancienne révision du document !


Dimensionnements et techniques pour une numérisation et indexation complète

  • ~423 numéros
  • ~40 pages / numéro
  • <5500 caractères / page
  • <1700 Ko / page en jpeg
  • ~7000 Ko / page en tiff
  • 5 sec de scan / page

total pour toute la collection

  • 423 * 40 = 16920 pages
  • 423 * 40 * 5500 = 93 Mo de texte brut
  • 423 * 40 * 1700 = 28.7 Go en jpeg pleine page
  • 423 * 40 * 7000 = 119 Go en tiff pleine page
  • 423 * 40 * 5 / 60 / 60 = 24h pour la numérisation.
  1. Massicoter
  2. Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale.
  3. Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg
  4. 2 branches de Conversion
    1. en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf
    2. en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg
  5. réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf
  6. extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg
  7. concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas)

La méthode pour faire des multi pdf indexés :

choix 1 : adobe acrobat pro dc : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html

  • génère les index, et index multi pdf.
  • peut aussi extraire automatiquement les images

choix 2 : https://www.pdfindexgenerator.com/

  • a l'avantage de fonctionner en ligne de commande pour une automatisation complète. (je génère des scripts par un programme en C ou autres)
  • on génère un fichier d'index par ldln, on prepend le numéro du ldln à toutes les entrées de l'index
  • on fusionne (merge) tous les index en un seul
  • ne semble pas capable de faire pointer in pdf d'index vers des sous pdfs.

En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.

  • anciens_numeros/numerisation.1755134582.txt.gz
  • Dernière modification: 2025/08/14 03:23
  • de 144.76.32.151