Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/08/14 03:25] 144.76.32.151 ancienne révision (2025/08/09 11:07) restaurée |
anciens_numeros:numerisation [2025/08/17 19:01] (Version actuelle) 114.119.153.112 ancienne révision (2025/04/14 17:40) restaurée |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
*<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
- | *5 sec de scan / page | + | *5.15 sec de scan / page |
- | *? sec d'OCR / page | + | *3.5 sec d'OCR / page |
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 16: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5 / 60 / 60 = 24h pour le scan. | + | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. |
- | La génération de l' | + | La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) |
+ | |||
+ | La génération de l' | ||
===== Etapes ===== | ===== Etapes ===== | ||
- Massicoter | - Massicoter | ||
- | - Scan si possible tiff 300dpi nommés | + | - Scan si possible tiff 300dpi nommés |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés |
- 2 branches de Conversion | - 2 branches de Conversion | ||
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** |
- | - en texte brut ldln0nnn.txt et images jpg numérotées | + | - en texte brut ldln_0nnn.txt et images jpg numérotées |
- réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
- | - extraction automatique de toutes les sous images nommées | + | - extraction automatique de toutes les sous images nommées |
- concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | ||
===== outils logiciel ===== | ===== outils logiciel ===== | ||
- | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== | + | ==== Pour la conversion jpeg en pdf ==== |
- | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | + | * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. |
+ | * [[https:// | ||
+ | * aussi possible, mais lourdingue [[https:// | ||
+ | |||
+ | |||
+ | ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== | ||
+ | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
pdf element a aussi l'air d' | pdf element a aussi l'air d' | ||
Ligne 45: | Ligne 53: | ||
* génère les index, et index multi pdf. | * génère les index, et index multi pdf. | ||
* peut aussi extraire automatiquement les images | * peut aussi extraire automatiquement les images | ||
+ | * testé sur 68 fichiers, marche bien. | ||
+ | |||
+ | |||
choix 2 : https:// | choix 2 : https:// | ||
* a l' | * a l' | ||
- | * on génère un fichier d' | + | * on génère un fichier d' |
* on fusionne (merge) tous les index en un seul | * on fusionne (merge) tous les index en un seul | ||
* ne semble pas capable de faire pointer in pdf d' | * ne semble pas capable de faire pointer in pdf d' | ||
Ligne 66: | Ligne 77: | ||
http:// | http:// | ||
+ | |||
+ | ===== Conversion en .txt en batch ===== | ||
+ | |||
+ | http:// | ||
+ | |||
+ | https:// | ||
===== Pérennité des fichiers générés ===== | ===== Pérennité des fichiers générés ===== | ||
Ligne 73: | Ligne 90: | ||
===== Stockage sur serveur, arborescence ===== | ===== Stockage sur serveur, arborescence ===== | ||
- | En raison du nombre de pages assez gigantesque, | + | En raison du nombre de pages assez gigantesque, |
+ | |||
+ | ===== Service de recherche full text en ligne ===== | ||
+ | |||
+ | Il est envisageable d' | ||
+ | |||
+ | Elle produirait des résultats ressemblant à : | ||
+ | |||
+ | < | ||
+ | Résultats de la recherche : | ||
+ | Texte recherché : "haute temperature" | ||
+ | Journaux trouvés : 5 | ||
+ | Correspondances : 5 | ||
+ | |||
+ | Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 | ||
+ | Liste des journaux trouvés : 0219 0321 0351 0366 0371 | ||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0219--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 72%--- | ||
+ | e caractère superficiel et d' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0321--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 20%--- | ||
+ | e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0351--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 31%--- | ||
+ | l'aide de l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0366--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 06%--- | ||
+ | vétérinaire inspecte la carcasse, et découvre que l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0371--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 13%--- | ||
+ | one où se trouvait l' | ||
+ | </ |