Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
anciens_numeros:numerisation [2025/09/22 05:56] 114.119.152.59 ancienne révision (2025/06/10 18:06) restaurée |
anciens_numeros:numerisation [2025/10/09 07:48] (Version actuelle) 216.73.216.162 ancienne révision (2025/09/28 01:58) restaurée |
||
---|---|---|---|
Ligne 9: | Ligne 9: | ||
*~7000 Ko / page en tiff | *~7000 Ko / page en tiff | ||
*5 sec de scan / page | *5 sec de scan / page | ||
+ | *? sec d'OCR / page | ||
| | ||
total pour toute la collection | total pour toute la collection | ||
Ligne 15: | Ligne 16: | ||
*423 * 40 * 1700 = 28.7 Go en jpeg pleine page | *423 * 40 * 1700 = 28.7 Go en jpeg pleine page | ||
*423 * 40 * 7000 = 119 Go en tiff pleine page | *423 * 40 * 7000 = 119 Go en tiff pleine page | ||
- | *423 * 40 * 5 / 60 / 60 = 24h pour la numérisation. | + | *423 * 40 * 5 / 60 / 60 = 24h pour le scan. |
+ | La génération de l' | ||
===== Etapes ===== | ===== Etapes ===== | ||
- Massicoter | - Massicoter | ||
- | - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, | + | - Scan si possible tiff 300dpi nommés ldln0nnn_ppp.tiff, |
- | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg | + | - Recadrage en batch (selon les format des ldln) avec xnview ou autres et conversion en jpeg nommés ldln0nnn_ppp.jpg |
- 2 branches de Conversion | - 2 branches de Conversion | ||
- | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf | + | - en pdf classique (avec texte OCRisé) par Acrobat DC, un pdf par ldln. ldln0nnn.pdf |
- | - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg | + | - en texte brut ldln0nnn.txt et images jpg numérotées ldln0nnn_ppp.jpg |
- réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | - réalisation d'un index complet automatiquement regroupant tout en un seul pdf chapeau. ldln_Vvvv.pdf | ||
- | - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg | + | - extraction automatique de toutes les sous images nommées ldln0nnn_ppp_zz.jpg |
- | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) | + | - concaténation (automatique) de tout les .txt en un seul fichier de ~100Mo (peut tout à fait être ouvert dans certains éditeurs de texte, pour possibilité d'un recherche full text très basique, mais suffisante dans beaucoup de cas) **(non divulgué, privé)** |
===== outils logiciel ===== | ===== outils logiciel ===== | ||
+ | ==== Pour la conversion jpeg en pdf, avec recherche de texte possible (OCR) ==== | ||
+ | Acrobat DC Pro, le problème, c'est que c'est payant, avec une facture à 200€ d' | ||
+ | Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ | ||
+ | pdf element a aussi l'air d' | ||
+ | |||
+ | |||
+ | ==== Pour l' | ||
La méthode pour faire des multi pdf indexés : | La méthode pour faire des multi pdf indexés : | ||
Ligne 44: | Ligne 53: | ||
Pour créer et utiliser un index (acrobat) | Pour créer et utiliser un index (acrobat) | ||
- | https:// | ||
- | A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. | + | {{youtube> |
+ | |||
+ | |||
+ | A connaître dans acrobat reader : crtl + shift + f permet de lancer une recherche dans tous les pdf dans un répertoire. | ||
+ | |||
+ | {{youtube> | ||
+ | |||
+ | |||
+ | Il est aussi possible de laisser complètement la tache à windows. Il peut en effet indexer tous les pdf. Ca donne des recherches très rapides. Il faut ensuite ouvrir le fichier sélectionné | ||
- | https://youtu.be/qmmQPemx05E | + | http://www.documentsnap.com/ |