Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
|
anciens_numeros:numerisation [2026/01/07 02:29] 47.128.31.242 ancienne révision (2025/12/27 09:14) restaurée |
anciens_numeros:numerisation [2026/01/10 03:03] (Version actuelle) 47.128.34.248 ancienne révision (2025/12/30 01:03) restaurée |
||
|---|---|---|---|
| Ligne 24: | Ligne 24: | ||
| - Massicoter | - Massicoter | ||
| - | - Scan si possible tiff 300dpi nommés | + | - Scan si possible tiff 300dpi nommés |
| - | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés |
| - 2 branches de Conversion | - 2 branches de Conversion | ||
| - | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf **(non divulgué, privé)** | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** |
| - | - en texte brut ldln0nnn.txt et images jpg numérotées | + | - en texte brut ldln_0nnn.txt et images jpg numérotées |
| - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
| - | - extraction automatique de toutes les sous images nommées | + | - extraction automatique de toutes les sous images nommées |
| - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** | ||
| ===== outils logiciel ===== | ===== outils logiciel ===== | ||
| - | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== | + | ==== Pour la conversion jpeg en pdf ==== |
| - | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | + | * Le mieux [[https:// |
| + | * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Mais a le désavantage de recompresser les images. | ||
| + | |||
| + | ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== | ||
| + | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
| Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
| pdf element a aussi l'air d' | pdf element a aussi l'air d' | ||
| - | pour générer les pdf automatiquement | + | Acrobat DC Pro, il est possible de traiter en bloc toute une arborescence de fichiers. La version convertie peut prendre la place du fichier d' |
| + | Seul problème, en cas de fichiers dans plusieurs langues, acrobat ne détecte pas automatiquement | ||
| - | https:// | ||
| ==== Pour l' | ==== Pour l' | ||
| Ligne 50: | Ligne 54: | ||
| * génère les index, et index multi pdf. | * génère les index, et index multi pdf. | ||
| * peut aussi extraire automatiquement les images | * peut aussi extraire automatiquement les images | ||
| + | * testé sur 68 fichiers, marche bien. | ||
| + | * peut indexer toute une arborescence sans problème. Même en multi langues. | ||
| + | |||
| + | |||
| choix 2 : https:// | choix 2 : https:// | ||
| * a l' | * a l' | ||
| - | * on génère un fichier d' | + | * on génère un fichier d' |
| * on fusionne (merge) tous les index en un seul | * on fusionne (merge) tous les index en un seul | ||
| * ne semble pas capable de faire pointer in pdf d' | * ne semble pas capable de faire pointer in pdf d' | ||
| Ligne 72: | Ligne 80: | ||
| + | ===== Conversion en .txt en batch ===== | ||
| + | |||
| + | Par utilisation de [[http:// | ||
| + | |||
| + | En utilisant l' | ||
| ===== Pérennité des fichiers générés ===== | ===== Pérennité des fichiers générés ===== | ||
| Ligne 78: | Ligne 91: | ||
| ===== Stockage sur serveur, arborescence ===== | ===== Stockage sur serveur, arborescence ===== | ||
| - | En raison du nombre de pages assez gigantesque, | + | En raison du nombre de pages assez gigantesque, |
| + | |||
| + | ===== Service de recherche full text en ligne ===== | ||
| + | |||
| + | Il est envisageable d' | ||
| + | |||
| + | Elle produirait des résultats ressemblant à : | ||
| + | |||
| + | < | ||
| + | Résultats de la recherche : | ||
| + | Texte recherché : "haute temperature" | ||
| + | Journaux trouvés : 5 | ||
| + | Correspondances : 5 | ||
| + | |||
| + | Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 | ||
| + | Liste des journaux trouvés : 0219 0321 0351 0366 0371 | ||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0219--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 72%--- | ||
| + | e caractère superficiel et d' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0321--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 20%--- | ||
| + | e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0351--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 31%--- | ||
| + | l'aide de l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0366--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 06%--- | ||
| + | vétérinaire inspecte la carcasse, et découvre que l' | ||
| + | |||
| + | ----------------------------------- | ||
| + | ---MATCH IN ldln_0371--- | ||
| + | ----------------------------------- | ||
| + | |||
| + | ---MATCH AT 13%--- | ||
| + | one où se trouvait l' | ||
| + | </ | ||