A la meua feina portem el lloc web Viasona.cat, un web on podeu trobar gairebé totes les lletres de totes les cançons catalanes de la història. A l’hora d’aconseguir les lletres, la gran majoria s’han d’obtindre per les cobertes dels cds, ja que, encara que parega mentida, a Internet hi ha molt poca cosa. Per tant, gran part de la feina ha consistit en transcriure les lletres de les cobertes manualment.
Durant molt de temps jo havia pensat que aquesta tasca a GNU/Linux (i també a qualsevol altre sistema operatiu) era temps perdut: pensava que els OCR no funcionaven gens bé.
Però el company que s’hi està dedicant ens va ser insistent en què volia un OCR i llavors vaig dedicar-me a veure si trobava alguna cosa. Vaig trobar alguns lectors, però gens no em quedava clar: molts lectors van per terminal, amb la qual cosa no servien pel meu company. Va ser llavors quan vaig descobrir l’OCRFeeder.
OCRFeeder
L’OCRFeeder no és més que una interfície per a tots eixos programes OCR per terminal que vaig trobar. El que té d’especial és que és un programa extremadament intuïtiu i potent: simplement funciona (bé, amb les limitacions que suposa un OCR, és clar):
- Llegeix directament imatges
- Permet importar fitxers pdf
- Admet la selecció i lectura per regions
- Podem fer servir motors de lectura diferents
El programa no es troba actualment traduït al català, tot i que ja he enviat la traducció de la darrera versió que apareixerà amb la propera versió del GNOME (no sé si s’inclourà també a l’Ubuntu).
Baixada
Si el voleu instal·lar a la vostra distribució, només caldrà que cerqueu als repositoris i l’instal·leu, en realitat no té cap complicació. La versió que es troba als repositoris de l’Ubuntu és la 0.6.6, però és gairebé igual a la 0.7.4, que és la darrera versió publicada. A l’Ubuntu:
sudo apt-get install ocrfeeder tesseract-ocr
També podeu baixar i compilar la darrera versió sense grans problemes (hauré de resoldre algunes dependències, però res realment complicat). Ací teniu un vídeo per veure com funciona.
- Enllaç | Pàgina oficial del programa
6 comments
Skip to comment form
Vaja!
Precisament aquesta vesprada em feia falta un.
El probaré.
Vaja, em feia falta això per l’Ubuntu.
Veig que només pot obrir imatges, hi ha alguna possibilitat de reconeixer text de pdfs?
File » Import pdf…
Ostres tu, cert. No ho havia vist, gràcies!
Estaria genial que ens facilitareu un .deb amb la darrera versió del programa (la 0.7.4), perquè he provat la 0.6.6 i amb el motor Tesseract reconeix QUASI be totes les paraules, però no es perfecte (com ho fa la meua impressora hp a Windows… i no, no puc usar la impresora perquè no estic a casa…). He instal·lat altres motors (l’Ocrad i el GOCR) i és increïble com de mal detecten els caràcters… 😐 amazing.
Coneixeu algun motor de lectura que pague la pena? (Si estiguera per ahí el de HP…).
😉
No n’he trobat cap :(. Jo ho vaig haver de compilar. Has d’entendre, però, que això que comentes no depèn de l’ocrfeeder directament, sinó del motor d’escanejat. El tesseract és el millor, però si et fixes, no té un paquet específic pel català.