anciens_numeros:numerisation

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
anciens_numeros:numerisation [2026/01/06 01:57]
47.128.121.42 ancienne révision (2025/04/08 19:46) restaurée
anciens_numeros:numerisation [2026/01/10 03:03] (Version actuelle)
47.128.34.248 ancienne révision (2025/12/30 01:03) restaurée
Ligne 35: Ligne 35:
 ===== outils logiciel ===== ===== outils logiciel =====
 ==== Pour la conversion jpeg en pdf ==== ==== Pour la conversion jpeg en pdf ====
-  * Image Magick magick convert @list_of_files.txt ldln_0nnn.pdf. Développé un script pour génération automatique de tous les pdf. +  * Le mieux [[https://gitlab.mister-muffin.de/josch/img2pdf|img2pdf.py]] une alternative qui a le gros l'avantage de ne pas recompresser les images.   
-  * img2pdf.py une alternative qui a le gros l'avantage de ne pas recompresser les pdf +  * Image Magick magick convert @list_of_files.txt ldln_0nnn.pdfMais a le désavantage de recompresser les images
-  * aussi possible, mais lourdingue [[https://msdn.microsoft.com/en-us/library/windows/desktop/cc351041(v=vs.85).aspx#_shell_ppw_launching]] +
  
 ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ==== ==== Pour la conversion pdf en pdf avec recherche de texte possible (OCR) ====
Ligne 44: Ligne 42:
 Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\ Il y a aussi CVision, mais je sens que ça va couter une blinde (il faut faire une demande de devis...)\\
 pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\ pdf element a aussi l'air d'être un soft pro cher : https://pdf.wondershare.com/contact-sales.html\\
 +
 +Acrobat DC Pro, il est possible de traiter en bloc toute une arborescence de fichiers. La version convertie peut prendre la place du fichier d'origine.\\
 +Seul problème, en cas de fichiers dans plusieurs langues, acrobat ne détecte pas automatiquement la langue. En effet, au lancement de la conversion, la langue est demandée. C'est un gros problème car cela nécessite autant de lancements manuels qu'il y a de langues.\\ 
  
  
Ligne 54: Ligne 55:
   * peut aussi extraire automatiquement les images   * peut aussi extraire automatiquement les images
   * testé sur 68 fichiers, marche bien.   * testé sur 68 fichiers, marche bien.
 +  * peut indexer toute une arborescence sans problème. Même en multi langues.
  
  
Ligne 80: Ligne 82:
 ===== Conversion en .txt en batch ===== ===== Conversion en .txt en batch =====
  
-http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/ +Par utilisation de [[http://www.kenbenoit.net/how-to-batch-convert-pdf-files-to-text/|pdftotext.exe]] de la suite [[http://www.foolabs.com/xpdf/|xpdf]] avec un petit programme écrit en C pour en faire un batch.
- +
-https://askubuntu.com/questions/211870/how-to-convert-all-pdf-files-to-text-within-a-folder-with-one-command+
  
 +En utilisant l'option -raw qui est adaptée aux pdf ocrisés par acrobat.
 ===== Pérennité des fichiers générés ===== ===== Pérennité des fichiers générés =====
  
Ligne 90: Ligne 91:
 ===== Stockage sur serveur, arborescence ===== ===== Stockage sur serveur, arborescence =====
  
-En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Peut poser problème pour faire l'index en auto.+En raison du nombre de pages assez gigantesque, un répertoire par numéro de ldln dans lequel on trouvera tout pour ce numéro. Ne pose pas de problème pour faire l'index en auto. 
 + 
 +===== Service de recherche full text en ligne ===== 
 + 
 +Il est envisageable d'offrir une page web publique permettant de réaliser une recherche full text. Sans pour autant divulguer le contenu des textes. 
 + 
 +Elle produirait des résultats ressemblant à :  
 + 
 +<code> 
 +Résultats de la recherche :  
 +Texte recherché : "haute temperature" 
 +Journaux trouvés : 5 
 +Correspondances : 5 
 + 
 +Liste des journaux scrutés : 0217 0219 0314 0317 0319 0321-0322 0324-0328 0331 0351-0359 0361 0364-0368 0370-0372 0374-0378 0381-0384 0386 0388-0390 0392 0395-0398 0400 0407-0413 0415-0425  
 +Liste des journaux trouvés : 0219 0321 0351 0366 0371  
 +----------------------------------- 
 +---MATCH IN ldln_0219--- 
 +----------------------------------- 
 + 
 +---MATCH AT 72%--- 
 +e caractère superficiel et d'aspect punctiforme, disseminés dans la paume. Evidemment c'est le conctact avec un élément à haute température qui les a provoqués, mais il n'y a pas de caractère de gravité". Comme nous l'avons dit, ce sont des décla 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0321--- 
 +----------------------------------- 
 + 
 +---MATCH AT 20%--- 
 +e suffisante grâce à une température de plusieurs millions de degrés. Ce sont les difficultés de confinement de ce plasma à haute température durant un temps suffisant qui nécessitent des machines de l'ampleur du projet européen JET. Pour la foudre e 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0351--- 
 +----------------------------------- 
 + 
 +---MATCH AT 31%--- 
 +l'aide de l'enquêtrice Linda Howe, et il a pu établir notamment que les bords de certaines plaies avaient été chauffés à haute température, comme pour une découpe au laser. On ne trouve pas de traces autour des animaux , ni de pas, ni de lut 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0366--- 
 +----------------------------------- 
 + 
 +---MATCH AT 06%--- 
 +vétérinaire inspecte la carcasse, et découvre que l'oreille gauche a en outre été découpée, avec un instrument chauffé à haute température, qui a cautérisé la plaie. Or, lorsque le fils Diez a fait une vidéo de la bête morte, le samedi, l'oreill 
 + 
 +----------------------------------- 
 +---MATCH IN ldln_0371--- 
 +----------------------------------- 
 + 
 +---MATCH AT 13%--- 
 +one où se trouvait l'objet inconnu : ces cailloux, et seulement ceux-là, s'effritaient comme s'ils avaient été calcinés à haute température. Je MM. Caron et Dewilde, sur les lieux de l'apparition (photo France Soir) vis des "spécialistes" pas 
 +</code>
  • anciens_numeros/numerisation.1767661076.txt.gz
  • Dernière modification: 2026/01/06 01:57
  • de 47.128.121.42