OCR: xsane e tesseract

Con l’accoppiata xsane e tesseract ho messo in piedi un ottimo sistema OCR seguendo questa guida. Funziona veramente bene, nulla da invidiare rispetto al programma che il mio vetusto HP ScanJet 3400C ha su W$.

L’unica pecca che ho riscontrato è il non riuscire a passare la lingua a xsane2tess con l’opzione -l, in questo caso viene creato un .txt vuoto. Ma dalle scannerizzazioni immagine TIFF effettuate con xsane e successivamente usando tesseract, specificando o meno la lingua, non non ho notato alcuna differenza.

Per chi volesse ho messo su AUR xsane2tess. Apprezzerei molto dei feedback, ciao!

PS se fate a mano, cioé senza l’ausilio di xsane2tess, dove scannerizzare una immagine TIFF. Successivamente rinomiare out.tiff in out.tif sennò tesseract va in paranoia. Infine

tesseract out.tif testo -l ita

About these ads

2 risposte a “OCR: xsane e tesseract

  1. Dovendo fare la tesi e non potendo tenermi i libri presi in prestito in biblioteca ho pensato di scannerizzare alcune parti di essi. Mi sono ricordato di questo tuo post, ed eccomi qui a leggerlo e apprezzarlo per la sintesi e la completezza.
    A breve metterò in pratica tutto ciò che hai scritto.
    Grazie mille!

  2. Oggi stavo seguendo anche io quella guida e facendo yaourt -Ss tesseract ho trovato lo script bell’e pronto, ora so chi l’ha messo, Mitico ;)

    Grazie anche per la dritta di rinominare i tiff, non sarei mai arrivato alla conclusione che tesseract che andava in “segfault” potesse venire da una boiata cosi!

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...