Con l’accoppiata xsane e tesseract ho messo in piedi un ottimo sistema OCR seguendo questa guida. Funziona veramente bene, nulla da invidiare rispetto al programma che il mio vetusto HP ScanJet 3400C ha su W$.
L’unica pecca che ho riscontrato è il non riuscire a passare la lingua a xsane2tess con l’opzione -l, in questo caso viene creato un .txt vuoto. Ma dalle scannerizzazioni immagine TIFF effettuate con xsane e successivamente usando tesseract, specificando o meno la lingua, non non ho notato alcuna differenza.
Per chi volesse ho messo su AUR xsane2tess. Apprezzerei molto dei feedback, ciao!
PS se fate a mano, cioé senza l’ausilio di xsane2tess, dove scannerizzare una immagine TIFF. Successivamente rinomiare out.tiff in out.tif sennò tesseract va in paranoia. Infine
tesseract out.tif testo -l ita




Luglio 16, 2009 a 11:04 am
Dovendo fare la tesi e non potendo tenermi i libri presi in prestito in biblioteca ho pensato di scannerizzare alcune parti di essi. Mi sono ricordato di questo tuo post, ed eccomi qui a leggerlo e apprezzarlo per la sintesi e la completezza.
A breve metterò in pratica tutto ciò che hai scritto.
Grazie mille!
Novembre 25, 2009 a 5:34 pm
Oggi stavo seguendo anche io quella guida e facendo yaourt -Ss tesseract ho trovato lo script bell’e pronto, ora so chi l’ha messo, Mitico
Grazie anche per la dritta di rinominare i tiff, non sarei mai arrivato alla conclusione che tesseract che andava in “segfault” potesse venire da una boiata cosi!