Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
anciens_numeros:numerisation [2025/11/17 12:38] 37.27.51.142 ancienne révision (2025/11/11 10:37) restaurée |
anciens_numeros:numerisation [2025/11/22 21:51] (Version actuelle) 114.119.153.112 ancienne révision (2025/03/01 00:18) restaurée |
||
|---|---|---|---|
| Ligne 8: | Ligne 8: | ||
| *<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
| *~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
| - | *5 sec de scan / page | + | *5.15 sec de scan / page |
| - | *? sec d'OCR / page | + | *3.5 sec d'OCR / page |
| | | ||
| total pour toute la collection | total pour toute la collection | ||
| Ligne 16: | Ligne 16: | ||
| *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
| *423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
| - | *423 * 40 * 5 / 60 / 60 = 24h pour le scan. | + | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. |
| - | La génération de l' | + | La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) |
| + | |||
| + | La génération de l' | ||
| ===== Etapes ===== | ===== Etapes ===== | ||
| - Massicoter | - Massicoter | ||
| - | - Scan si possible tiff 300dpi nommés | + | - Scan si possible tiff 300dpi nommés |
| - | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés |
| - 2 branches de Conversion | - 2 branches de Conversion | ||
| - | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** |
| - | - en texte brut ldln0nnn.txt et images jpg numérotées | + | - en texte brut ldln_0nnn.txt et images jpg numérotées |
| - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
| - | - extraction automatique de toutes les sous images nommées | + | - extraction automatique de toutes les sous images nommées |
| - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | ||
| ===== outils logiciel ===== | ===== outils logiciel ===== | ||
| - | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== | + | ==== Pour la conversion jpeg en pdf ==== |
| - | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | + | * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. |
| + | * [[https:// | ||
| + | * aussi possible, mais lourdingue [[https:// | ||
| + | |||
| + | |||
| + | ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== | ||
| + | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
| Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
| pdf element a aussi l'air d' | pdf element a aussi l'air d' | ||
| Ligne 45: | Ligne 53: | ||
| * génère les index, et index multi pdf. | * génère les index, et index multi pdf. | ||
| * peut aussi extraire automatiquement les images | * peut aussi extraire automatiquement les images | ||
| + | * testé sur 68 fichiers, marche bien. | ||
| + | |||
| + | |||
| choix 2 : https:// | choix 2 : https:// | ||
| * a l' | * a l' | ||
| - | * on génère un fichier d' | + | * on génère un fichier d' |
| * on fusionne (merge) tous les index en un seul | * on fusionne (merge) tous les index en un seul | ||
| * ne semble pas capable de faire pointer in pdf d' | * ne semble pas capable de faire pointer in pdf d' | ||
| Ligne 66: | Ligne 77: | ||
| http:// | http:// | ||
| + | |||
| + | ===== Conversion en .txt en batch ===== | ||
| + | |||
| + | http:// | ||
| + | |||
| + | https:// | ||
| ===== Pérennité des fichiers générés ===== | ===== Pérennité des fichiers générés ===== | ||
| Ligne 73: | Ligne 90: | ||
| ===== Stockage sur serveur, arborescence ===== | ===== Stockage sur serveur, arborescence ===== | ||
| - | En raison du nombre de pages assez gigantesque, | + | En raison du nombre de pages assez gigantesque, |
| + | |||
| + | ===== Service de recherche full text en ligne ===== | ||
| + | |||
| + | Il est envisageable d' | ||
| + | |||
| + | Elle produirait des résultats ressemblant à : | ||
| + | |||
| + | < | ||
| + | Résultats de la recherche : | ||
| + | Texte recherché : "haute temperature" | ||
| + | Journaux trouvés : 5 | ||
| + | Correspondances : 5 | ||
| + | |||
| + | Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 | ||
| + | Liste des journaux trouvés : 0219 0321 0351 0366 0371 | ||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0219--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 72%--- | ||
| + | e caractère superficiel et d' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0321--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 20%--- | ||
| + | e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0351--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 31%--- | ||
| + | l'aide de l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0366--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 06%--- | ||
| + | vétérinaire inspecte la carcasse, et découvre que l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0371--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 13%--- | ||
| + | one où se trouvait l' | ||
| + | </ | ||