El teu blog de Linux en català

OCRFeeder, l'OCR més senzill per a GNU/Linux

A la meua feina portem el lloc web Viasona.cat, un web on podeu trobar gairebé totes les lletres de totes les cançons catalanes de la història. A l’hora d’aconseguir les lletres, la gran majoria s’han d’obtindre per les cobertes dels cds, ja que, encara que parega mentida, a Internet hi ha molt poca cosa. Per tant, gran part de la feina ha consistit en transcriure les lletres de les cobertes manualment.

Durant molt de temps jo havia pensat que aquesta tasca a GNU/Linux (i també a qualsevol altre sistema operatiu) era temps perdut: pensava que els OCR no funcionaven gens bé.

Però el company que s’hi està dedicant ens va ser insistent en què volia un OCR i llavors vaig dedicar-me a veure si trobava alguna cosa. Vaig trobar alguns lectors, però gens no em quedava clar: molts lectors van per terminal, amb la qual cosa no servien pel meu company. Va ser llavors quan vaig descobrir l’OCRFeeder.

OCRFeeder

L’OCRFeeder no és més que una interfície per a tots eixos programes OCR per terminal que vaig trobar. El que té d’especial és que és un programa extremadament intuïtiu i potent: simplement funciona (bé, amb les limitacions que suposa un OCR, és clar):

  • Llegeix directament imatges
  • Permet importar fitxers pdf
  • Admet la selecció i lectura per regions
  • Podem fer servir motors de lectura diferents

El programa no es troba actualment traduït al català, tot i que ja he enviat la traducció de la darrera versió que apareixerà amb la propera versió del GNOME (no sé si s’inclourà també a l’Ubuntu).

Interfície de l'OCRFeeder

Interfície de l'OCRFeeder

Baixada

Si el voleu instal·lar a la vostra distribució, només caldrà que cerqueu als repositoris i l’instal·leu, en realitat no té cap complicació. La versió que es troba als repositoris de l’Ubuntu és la 0.6.6, però és gairebé igual a la 0.7.4, que és la darrera versió publicada. A l’Ubuntu:

sudo apt-get install ocrfeeder tesseract-ocr

També podeu baixar i compilar la darrera versió sense grans problemes (hauré de resoldre algunes dependències, però res realment complicat). Ací teniu un vídeo per veure com funciona.

  1. Reply

    Vaja!
    Precisament aquesta vesprada em feia falta un.
    El probaré.

    • Pere on 30 de març de 2011 at 23:44

    Reply

    Vaja, em feia falta això per l’Ubuntu.

    Veig que només pot obrir imatges, hi ha alguna possibilitat de reconeixer text de pdfs?

      • Pau on 30 de març de 2011 at 23:50
      • Author

      Reply

      File » Import pdf…

        • Pere on 2 d'abril de 2011 at 12:51

        Reply

        Ostres tu, cert. No ho havia vist, gràcies!

    • Ecron on 10 d'abril de 2011 at 19:04

    Reply

    Estaria genial que ens facilitareu un .deb amb la darrera versió del programa (la 0.7.4), perquè he provat la 0.6.6 i amb el motor Tesseract reconeix QUASI be totes les paraules, però no es perfecte (com ho fa la meua impressora hp a Windows… i no, no puc usar la impresora perquè no estic a casa…). He instal·lat altres motors (l’Ocrad i el GOCR) i és increïble com de mal detecten els caràcters… 😐 amazing.

    Coneixeu algun motor de lectura que pague la pena? (Si estiguera per ahí el de HP…).

    😉

      • Pau on 12 d'abril de 2011 at 08:27
      • Author

      Reply

      No n’he trobat cap :(. Jo ho vaig haver de compilar. Has d’entendre, però, que això que comentes no depèn de l’ocrfeeder directament, sinó del motor d’escanejat. El tesseract és el millor, però si et fixes, no té un paquet específic pel català.

Respon a Pau Cancel·la les respostes

Your email address will not be published.