Dimensionnements et techniques pour une numérisation et indexation complète

Ceci est une ancienne révision du document !

~423 numéros
~40 pages / numéro
<5500 caractères / page
<1700 Ko / page en jpeg
~7000 Ko / page en tiff
5 sec de scan / page

total pour toute la collection

423 * 40 = 16920 pages
423 * 40 * 5500 = 93 Mo de texte brut
423 * 40 * 1700 = 28.7 Go en jpeg pleine page
423 * 40 * 7000 = 119 Go en tiff pleine page
423 * 40 * 5 / 60 / 60 = 24h pour la numérisation.

Massicoter
Scan si possible tiff 300dpi nommés ldlnxxxx_yyy.tiff, sinon en jpeg 300dpi qualité maximale.
Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldlnxxxx_yyy.jpg
2 branches de Conversion
1. en pdf classique (avec recherche texte) par Acrobat DC, un pdf par ldln. ldlnxxxx.pdf
2. en texte brut ldlnxxxx.txt et images jpg numérotées ldlnxxxx_yyy.jpg
réalisation d'un index complet automatiquement par Acrobat DC regroupant tout en un seul pdf chapeau. ldln_vzzz.pdf
concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique)

La méthode pour faire des multi pdf indexés : https://helpx.adobe.com/fr/acrobat/using/creating-pdf-indexes.html

pourrait peut-être aussi utiliser https://www.pdfindexgenerator.com/

Par respect de http://www.ufowaves.org/ltdsp/ltdsp/fileformats

En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.

Dimensionnements et techniques pour une numérisation et indexation complète

Chiffres

Technique

Pérennité des fichiers générés

Stockage sur serveur, arborescence

Sommaires LDLN Creation Colaborative