OCR: xsane e tesseract

Marzo 15, 2009

Con l’accoppiata xsane e tesseract ho messo in piedi un ottimo sistema OCR seguendo questa guida. Funziona veramente bene, nulla da invidiare rispetto al programma che il mio vetusto HP ScanJet 3400C ha su W$.

L’unica pecca che ho riscontrato è il non riuscire a passare la lingua a xsane2tess con l’opzione -l, in questo caso viene creato un .txt vuoto. Ma dalle scannerizzazioni immagine TIFF effettuate con xsane e successivamente usando tesseract, specificando o meno la lingua, non non ho notato alcuna differenza.

Per chi volesse ho messo su AUR xsane2tess. Apprezzerei molto dei feedback, ciao!

PS se fate a mano, cioé senza l’ausilio di xsane2tess, dove scannerizzare una immagine TIFF. Successivamente rinomiare out.tiff in out.tif sennò tesseract va in paranoia. Infine

tesseract out.tif testo -l ita

2 Risposte a “OCR: xsane e tesseract”

  1. xavi Dice:

    Dovendo fare la tesi e non potendo tenermi i libri presi in prestito in biblioteca ho pensato di scannerizzare alcune parti di essi. Mi sono ricordato di questo tuo post, ed eccomi qui a leggerlo e apprezzarlo per la sintesi e la completezza.
    A breve metterò in pratica tutto ciò che hai scritto.
    Grazie mille!

  2. vaquerito Dice:

    Oggi stavo seguendo anche io quella guida e facendo yaourt -Ss tesseract ho trovato lo script bell’e pronto, ora so chi l’ha messo, Mitico ;)

    Grazie anche per la dritta di rinominare i tiff, non sarei mai arrivato alla conclusione che tesseract che andava in “segfault” potesse venire da una boiata cosi!


Lascia un commento