Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/10/03 11:44] 114.119.148.88 ancienne révision (2025/03/30 06:14) restaurée |
anciens_numeros:numerisation [2025/10/09 07:48] (Version actuelle) 216.73.216.162 ancienne révision (2025/09/28 01:58) restaurée |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
*<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
- | *5.15 sec de scan / page | + | *5 sec de scan / page |
- | *3.5 sec d'OCR / page | + | *? sec d'OCR / page |
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 16: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. | + | *423 * 40 * 5 / 60 / 60 = 24h pour le scan. |
- | La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) | + | La génération de l' |
- | + | ||
- | La génération de l' | + | |
===== Etapes ===== | ===== Etapes ===== | ||
- Massicoter | - Massicoter | ||
- | - Scan si possible tiff 300dpi nommés | + | - Scan si possible tiff 300dpi nommés |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés |
- 2 branches de Conversion | - 2 branches de Conversion | ||
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** |
- | - en texte brut ldln_0nnn.txt et images jpg numérotées | + | - en texte brut ldln0nnn.txt et images jpg numérotées |
- réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
- | - extraction automatique de toutes les sous images nommées | + | - extraction automatique de toutes les sous images nommées |
- concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | ||
===== outils logiciel ===== | ===== outils logiciel ===== | ||
- | ==== Pour la conversion jpeg en pdf ==== | + | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== |
- | * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. | + | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' |
- | * [[https:// | + | |
- | * aussi possible, mais lourdingue [[https:// | + | |
- | + | ||
- | + | ||
- | ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== | + | |
- | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | + | |
Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
pdf element a aussi l'air d' | pdf element a aussi l'air d' | ||
Ligne 53: | Ligne 45: | ||
* génère les index, et index multi pdf. | * génère les index, et index multi pdf. | ||
* peut aussi extraire automatiquement les images | * peut aussi extraire automatiquement les images | ||
- | * testé sur 68 fichiers, marche bien. | ||
- | |||
- | |||
choix 2 : https:// | choix 2 : https:// | ||
* a l' | * a l' | ||
- | * on génère un fichier d' | + | * on génère un fichier d' |
* on fusionne (merge) tous les index en un seul | * on fusionne (merge) tous les index en un seul | ||
* ne semble pas capable de faire pointer in pdf d' | * ne semble pas capable de faire pointer in pdf d' | ||
Ligne 78: | Ligne 67: | ||
- | ===== Conversion en .txt en batch ===== | ||
- | |||
- | Par utilisation de [[http:// | ||
- | |||
- | En utilisant l' | ||
===== Pérennité des fichiers générés ===== | ===== Pérennité des fichiers générés ===== | ||
Ligne 89: | Ligne 73: | ||
===== Stockage sur serveur, arborescence ===== | ===== Stockage sur serveur, arborescence ===== | ||
- | En raison du nombre de pages assez gigantesque, | + | En raison du nombre de pages assez gigantesque, |
- | + | ||
- | ===== Service de recherche full text en ligne ===== | + | |
- | + | ||
- | Il est envisageable d' | + | |
- | + | ||
- | Elle produirait des résultats ressemblant à : | + | |
- | + | ||
- | < | + | |
- | Résultats de la recherche : | + | |
- | Texte recherché : "haute temperature" | + | |
- | Journaux trouvés : 5 | + | |
- | Correspondances : 5 | + | |
- | + | ||
- | Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 | + | |
- | Liste des journaux trouvés : 0219 0321 0351 0366 0371 | + | |
- | ----------------------------------- | + | |
- | ---MATCH IN ldln_0219--- | + | |
- | ----------------------------------- | + | |
- | + | ||
- | ---MATCH AT 72%--- | + | |
- | e caractère superficiel et d' | + | |
- | + | ||
- | ----------------------------------- | + | |
- | ---MATCH IN ldln_0321--- | + | |
- | ----------------------------------- | + | |
- | + | ||
- | ---MATCH AT 20%--- | + | |
- | e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l' | + | |
- | + | ||
- | ----------------------------------- | + | |
- | ---MATCH IN ldln_0351--- | + | |
- | ----------------------------------- | + | |
- | + | ||
- | ---MATCH AT 31%--- | + | |
- | l'aide de l' | + | |
- | + | ||
- | ----------------------------------- | + | |
- | ---MATCH IN ldln_0366--- | + | |
- | ----------------------------------- | + | |
- | + | ||
- | ---MATCH AT 06%--- | + | |
- | vétérinaire inspecte la carcasse, et découvre que l' | + | |
- | + | ||
- | ----------------------------------- | + | |
- | ---MATCH IN ldln_0371--- | + | |
- | ----------------------------------- | + | |
- | + | ||
- | ---MATCH AT 13%--- | + | |
- | one où se trouvait l' | + | |
- | </ | + |