Logiciel d'OCR pour Debian

Phil-Chris · Mars 21, 2022, 5:57

Bonjour,
Je suis à la recherche d’un logiciel d’OCR pour un OS basé sur Debian et suis un peu perdu dans mes recherches… J’aurais besoin au moins de récupérer le texte et images séparément et si ça garde plus ou moins la mise en page, ça serait top !
Entre autres, je suis tombé là dessus :
“Best OCR Apps for Linux” le premier de la liste, Tesseract OCR, semble bien côté, mais le sponsor gougueule ne plaide pas en sa faveur…
et “Debian Accessibility Optical character recognition (ocr) packages” une liste de paquets d’applications (dont encore Tesseract mais en ligne de commande, je suis un peu largué pour en faire quelque chose…)
Quelqu’un aurait-il l’expérience de l’OCR ou au moins un avis sur un des logiciels d’OCR (libre bien sûr ) ? Et si oui, est-ce que ça peut marcher depuis des fichiers image (jpg, png) étant donné que nous n’avons pas de scanner pour numériser en direct, on prendrait en photo chaque page ? (je voudrais “sauver” de vieux bouquins, certains un peu jaunis…)
Merci !

pvincent · Mars 22, 2022, 10:18

Hum, je n’ai pas d’expérience récente d’utilisation d’un outil OCR.
De mémoire, cela fonctionnait pas mal à partir de texte type imprimé. La plus grosse difficulté est la reconnaissance des écritures manuscrites. Enfin, les formats images sont bien sûr acceptés car c’est le principe même : image => texte

Cependant, mon discours ne vaut pas grand chose, compte-tenu que je n’en ai pas utilisé récemment. Si j’essaye, je te tiens au courant.

D’autres lecteurs de Libre.re ont certainement plus de chose concrète à formuler sur ce thème…

Phil-Chris · Mars 22, 2022, 12:20

Merci !
Malgré le “sponsor gougueule” de Tesseract OCR, je suis tenté de l’essayer…
Si je me lance, je ferai part de mes impressions…

Phil-Chris · Mars 25, 2022, 6:45

Pour les intéressés par l’OCR, j’ai découvert OCRopy qui a la propriété de pourvoir être “entrainé” afin d’augmenter le taux de reconnaissance… une piste de plus !

chtitux · Mars 26, 2022, 7:58

Il faut plutôt se réjouir quand des entreprises sponsorisent un projet Libre. Cela veut dire que les développeurs bénévoles peuvent vivre (disons tirer un revenu ou ne pas perdre trop d’argent) de leur projet.

Bon courage pour ta recherche d’outils. Beaucoup d’entre eux ne sont disponibles qu’en ligne de commande, cela vaut sûrement le coup de t’y former un peu pour pouvoir en profiter.

Phil-Chris · Mars 26, 2022, 5:44

Je me doute que ce terrain est glissant, mais je me lance
Se réjouir, oui et non : tout dépend des intérêts de l’entreprise et il faut bien faire la distinction entre mécénat et sponsoring, et la différence est importante…
Le mécénat est un soutien sans contrepartie directe ou indierecte et est assimilé fiscalement à un don… (l’entreprise défiscalise)
Le sponsoring est fait en vue d’en retirer un bénéfice, le plus souvent sous la forme de publicité, de greenwashing de l’image etc.
Vous imaginez des entreprises du gabarit de ggle ou ms “sponsorisant” sans y trouver un intérêt ? Ça me fait penser au célèbre philanthrope Bill G. C’est aussi une manière d’avoir un pied dans la boîte : si le projet est viable, voire dangereux pour les intérêts des ces multinationales, elles rachètent la startup (du coup, ils ont vendu leur âme au diable, ce n’est que mon point de vue ) et au mieux le projet continue dans d’autres mains, avec des objectifs moins louables qu’à ses débuts (quand il s’agit initialement de libre, d’open source…) au pire il est enterré si le R.O.I n’est pas bon (Return On Invest…)

Et oui, je vois bien ça venir ! d’un autre côté, ça doit permettre aussi de traiter par lot une série de fichiers (je pense par script ?), par exemple avec d’abord un traitement par Gimp pour préparer l’image (il me semble avoir vu que Gimp pouvait traiter par lots) avant l’OCR proprement dite… mais là, pour l’instant, je rêve et c’est pas pour tout de suite : bien qu’ayant commencé l’informatique sous DOS et donc en ligne de commande (y compris debug pour ceux qui ont connu) après des années d’assoupissement du cerveau sous windaube, je ne m’en sens pas encore capable…