anciens_numeros:numerisation

Ceci est une ancienne révision du document !


Dimensionnements et techniques pour une numérisation et indexation complète

  • ~423 numéros
  • ~40 pages / numéro
  • <5500 caractères / page
  • <1700 Ko / page en jpeg
  • ~7000 Ko / page en tiff
  • 5 sec de scan / page

total pour toute la collection

  • 423 * 40 = 16920 pages
  • 423 * 40 * 5500 = 93 Mo de texte brut
  • 423 * 40 * 1700 = 28.7 Go en jpeg pleine page
  • 423 * 40 * 7000 = 119 Go en tiff pleine page
  • 423 * 40 * 5 / 60 / 60 = 24h pour la numérisation.
  1. Massicoter
  2. Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, sinon en jpeg 300dpi qualité maximale.
  3. Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg
  4. 2 branches de Conversion
    1. en pdf classique (avec recherche texte) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf
    2. en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg
  5. réalisation d'un index complet automatiquement par Acrobat DC regroupant tout en un seul pdf chapeau. ldln_vzzz.pdf
  6. extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg
  7. concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas)

La méthode pour faire des multi pdf indexés : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html

pourrait peut-être aussi utiliser https://www.pdfindexgenerator.com/

En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.

  • anciens_numeros/numerisation.1755385157.txt.gz
  • Dernière modification: 2025/08/17 00:59
  • de 114.119.129.71