Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/08/14 03:23] 144.76.32.151 ancienne révision (2025/08/09 11:07) restaurée |
anciens_numeros:numerisation [2025/08/17 19:01] (Version actuelle) 114.119.153.112 ancienne révision (2025/04/14 17:40) restaurée |
||
---|---|---|---|
Ligne 8: | Ligne 8: | ||
*<1700 Ko / page en jpeg | *<1700 Ko / page en jpeg | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
- | *5 sec de scan / page | + | *5.15 sec de scan / page |
+ | *3.5 sec d'OCR / page | ||
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 15: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation. | + | *423 * 40 * 5.15 / 60 / 60 = 24h pour le scan. |
+ | La conversion des pdf bruts en pdf OCR est totalement automatique (batch sur tous les pdf d'un répertoire) | ||
+ | |||
+ | La génération de l' | ||
===== Etapes ===== | ===== Etapes ===== | ||
- Massicoter | - Massicoter | ||
- | - Scan si possible tiff 300dpi nommés | + | - Scan si possible tiff 300dpi nommés |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés |
- 2 branches de Conversion | - 2 branches de Conversion | ||
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln_0nnn.pdf **(non divulgué, privé)** |
- | - en texte brut ldln0nnn.txt et images jpg numérotées | + | - en texte brut ldln_0nnn.txt et images jpg numérotées |
- réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
- | - extraction automatique de toutes les sous images nommées | + | - extraction automatique de toutes les sous images nommées |
- | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) | + | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** |
===== outils logiciel ===== | ===== outils logiciel ===== | ||
+ | ==== Pour la conversion jpeg en pdf ==== | ||
+ | * Image Magick : magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. | ||
+ | * [[https:// | ||
+ | * aussi possible, mais lourdingue [[https:// | ||
+ | |||
+ | |||
+ | ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== | ||
+ | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
+ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
+ | pdf element a aussi l'air d' | ||
+ | |||
+ | |||
+ | ==== Pour l' | ||
La méthode pour faire des multi pdf indexés : | La méthode pour faire des multi pdf indexés : | ||
Ligne 36: | Ligne 53: | ||
* génère les index, et index multi pdf. | * génère les index, et index multi pdf. | ||
* peut aussi extraire automatiquement les images | * peut aussi extraire automatiquement les images | ||
+ | * testé sur 68 fichiers, marche bien. | ||
+ | |||
+ | |||
choix 2 : https:// | choix 2 : https:// | ||
* a l' | * a l' | ||
- | * on génère un fichier d' | + | * on génère un fichier d' |
* on fusionne (merge) tous les index en un seul | * on fusionne (merge) tous les index en un seul | ||
* ne semble pas capable de faire pointer in pdf d' | * ne semble pas capable de faire pointer in pdf d' | ||
Ligne 44: | Ligne 64: | ||
Pour créer et utiliser un index (acrobat) | Pour créer et utiliser un index (acrobat) | ||
- | https:// | + | |
+ | {{youtube> | ||
A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l' | A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. J'ai essayé, mais je doute que ce soit utilisable pour 400+ pdf, c'est très lent, et même après la recherche, l' | ||
- | https:// | + | {{youtube> |
Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows. | Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné et refaire une seconde fois la même recherche. Pour que ça marche sous win 7/8/10, il faut faire une manip dans windows. | ||
Ligne 54: | Ligne 77: | ||
http:// | http:// | ||
+ | |||
+ | ===== Conversion en .txt en batch ===== | ||
+ | |||
+ | http:// | ||
+ | |||
+ | https:// | ||
===== Pérennité des fichiers générés ===== | ===== Pérennité des fichiers générés ===== | ||
Ligne 61: | Ligne 90: | ||
===== Stockage sur serveur, arborescence ===== | ===== Stockage sur serveur, arborescence ===== | ||
- | En raison du nombre de pages assez gigantesque, | + | En raison du nombre de pages assez gigantesque, |
+ | |||
+ | ===== Service de recherche full text en ligne ===== | ||
+ | |||
+ | Il est envisageable d' | ||
+ | |||
+ | Elle produirait des résultats ressemblant à : | ||
+ | |||
+ | < | ||
+ | Résultats de la recherche : | ||
+ | Texte recherché : "haute temperature" | ||
+ | Journaux trouvés : 5 | ||
+ | Correspondances : 5 | ||
+ | |||
+ | Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425 | ||
+ | Liste des journaux trouvés : 0219 0321 0351 0366 0371 | ||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0219--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 72%--- | ||
+ | e caractère superficiel et d' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0321--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 20%--- | ||
+ | e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0351--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 31%--- | ||
+ | l'aide de l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0366--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 06%--- | ||
+ | vétérinaire inspecte la carcasse, et découvre que l' | ||
+ | |||
+ | ----------------------------------- | ||
+ | ---MATCH IN ldln_0371--- | ||
+ | ----------------------------------- | ||
+ | |||
+ | ---MATCH AT 13%--- | ||
+ | one où se trouvait l' | ||
+ | </ |