OCRFeeder, l'OCR més senzill per a GNU/Linux

A la meua feina portem el lloc web Viasona.cat, un web on podeu trobar gairebé totes les lletres de totes les cançons catalanes de la història. A l’hora d’aconseguir les lletres, la gran majoria s’han d’obtindre per les cobertes dels cds, ja que, encara que parega mentida, a Internet hi ha molt poca cosa. Per tant, gran part de la feina ha consistit en transcriure les lletres de les cobertes manualment.

Durant molt de temps jo havia pensat que aquesta tasca a GNU/Linux (i també a qualsevol altre sistema operatiu) era temps perdut: pensava que els OCR no funcionaven gens bé.

Però el company que s’hi està dedicant ens va ser insistent en què volia un OCR i llavors vaig dedicar-me a veure si trobava alguna cosa. Vaig trobar alguns lectors, però gens no em quedava clar: molts lectors van per terminal, amb la qual cosa no servien pel meu company. Va ser llavors quan vaig descobrir l’OCRFeeder.

OCRFeeder

L’OCRFeeder no és més que una interfície per a tots eixos programes OCR per terminal que vaig trobar. El que té d’especial és que és un programa extremadament intuïtiu i potent: simplement funciona (bé, amb les limitacions que suposa un OCR, és clar):

Llegeix directament imatges
Permet importar fitxers pdf
Admet la selecció i lectura per regions
Podem fer servir motors de lectura diferents

El programa no es troba actualment traduït al català, tot i que ja he enviat la traducció de la darrera versió que apareixerà amb la propera versió del GNOME (no sé si s’inclourà també a l’Ubuntu).

Interfície de l'OCRFeeder

Baixada

Si el voleu instal·lar a la vostra distribució, només caldrà que cerqueu als repositoris i l’instal·leu, en realitat no té cap complicació. La versió que es troba als repositoris de l’Ubuntu és la 0.6.6, però és gairebé igual a la 0.7.4, que és la darrera versió publicada. A l’Ubuntu:

sudo apt-get install ocrfeeder tesseract-ocr

També podeu baixar i compilar la darrera versió sense grans problemes (hauré de resoldre algunes dependències, però res realment complicat). Ací teniu un vídeo per veure com funciona.

Enllaç | Pàgina oficial del programa

Relacionats

Pau

Un dels fundadors de GNULinux.cat. De Sant Joan d'Alacant, enginyer industrial, desenvolupador de programari,membre de Softcatalà, yogi i fan del Shiatsu.

Dia de la llibertat de documents

Ubuntu Global Jam a Les Borges Blanques

6 comments

Skip to comment form

- baltolkien on 30 de març de 2011 at 15:58
Reply
Vaja!
Precisament aquesta vesprada em feia falta un.
El probaré.
- Pere on 30 de març de 2011 at 23:44
Reply
Vaja, em feia falta això per l’Ubuntu.

Veig que només pot obrir imatges, hi ha alguna possibilitat de reconeixer text de pdfs?
1. Pau on 30 de març de 2011 at 23:50
  
  Author
  
  Reply
  File » Import pdf…
  1. Pere on 2 d'abril de 2011 at 12:51
    
    Reply
    
    Ostres tu, cert. No ho havia vist, gràcies!
- Ecron on 10 d'abril de 2011 at 19:04
Reply
Estaria genial que ens facilitareu un .deb amb la darrera versió del programa (la 0.7.4), perquè he provat la 0.6.6 i amb el motor Tesseract reconeix QUASI be totes les paraules, però no es perfecte (com ho fa la meua impressora hp a Windows… i no, no puc usar la impresora perquè no estic a casa…). He instal·lat altres motors (l’Ocrad i el GOCR) i és increïble com de mal detecten els caràcters… 😐 amazing.

Coneixeu algun motor de lectura que pague la pena? (Si estiguera per ahí el de HP…).

😉
1. Pau on 12 d'abril de 2011 at 08:27
  
  Author
  
  Reply
  No n’he trobat cap :(. Jo ho vaig haver de compilar. Has d’entendre, però, que això que comentes no depèn de l’ocrfeeder directament, sinó del motor d’escanejat. El tesseract és el millor, però si et fixes, no té un paquet específic pel català.

GNULinux||||CAT

OCRFeeder, l'OCR més senzill per a GNU/Linux

OCRFeeder

Relacionats

Pau

Previous

Dia de la llibertat de documents

Next

Ubuntu Global Jam a Les Borges Blanques

6 comments

Respon a Pau Cancel·la les respostes

Entrades recents

Comentaris recents

Arxius

Categories

Meta

GNULinux||||CAT

OCRFeeder, l'OCR més senzill per a GNU/Linux

OCRFeeder

Comparteix això:

Relacionats

Pau

Previous

Dia de la llibertat de documents

Next

Ubuntu Global Jam a Les Borges Blanques

6 comments

Respon a Pau Cancel·la les respostes

Entrades recents

Comentaris recents

Arxius

Categories

Meta