OCR v linuxu

8. 6. 2010 22:03 (aktualizováno) Jan Kulhánek

Pod příspěvkem „Tip na skvělou multifunkční barevnou tiskárnu se v diskuzi objevilo téma OCR – rozpoznávání textu z naskenovaného dokumentu. Přiznám se, že jsem už dlouho neměl potřebu takové věci provádět, naposled asi před pěti lety s programem ABBYY FineReader, který jsem dostal ke skeneru. Tehdy jsem o linuxu neměl ani tušení, takže pod WinXP.

Nedalo mi to a hledal jsem co nejlepší software, který bude skenovat, převádět text, bude zvládat češtinu a půjde pracovat se složitějšími dokumenty. Takové parametry mi připadaly pro normální práci s OCR nezbytné. Jo a ještě jsem chtěl nějaké příjemné uživatelské prostředí nebo alespoň snadné použití v terminálu. Postupně jsem ale slevoval, protože jsem opravdu nic nenacházel.

Nakonec mi v síti něco uvízlo – nemá to hezké uživatelské prostředí (bez toho se člověk obejde, zvláště když je to zdarma), není to úplně snadné přes terminál (to se dá naučit), má to potíže s češtinou (hmm, ale trochu jí to umí) a není to vždy zdarma (ale jen poslední kousek). Ale je to OCR!

gocr

Program gocr najdete v repozitáři distribuce (vyzkoušeno v Ubuntu 10.04), jde o CLI prográmek, jednoúčelový pro rozpoznávání textu a poradí si s diakritikou. Dočetl jsem se, že má úspěšnost asi 85%, což není nic moc, s převedeným textem je ještě dost práce. Ale funguje to.

gocr-gtk

Jde o jednu z grafických nadstaveb, využívajících gocr. Vypadá příšerně, moc toho neumí, je to zastaralé, ale vyzkoušet to můžete. Při instalaci to bude chtít několik knihoven, které nejsou v repozitáři a je třeba stahovat a nejprve doinstalovat. Po nainstalování se to pouští v terminálu příkazem gtk-ocr.

Kooka

Další nadstavba pro gocr, tentokrát pro KDE 3.5, takže také se tu vývoj tak nějak zastavil, nemám vyzkoušeno, nic o tom nevím.

ClaraOCR

Opět nadstavba stejného základu, připadala mi použitelná pro jednoduché skenování, navíc v dolní části GUI vidíte parametry, se kterými se pouští gocr, takže je to trochu i výukový program:-) Pro ty, co používají Ubuntu, je tu link na deb balíček.

ABBYY FineReader

Firma ABBYY vyvíjí komerční OCR software, někteří z nás jej dostali k novému skeneru, samozřejmě verzi pro Windows, maximálně pro Mac. Existuje ale i CLI OCR for Linux, ke stažení trial verze, která je omezena počtem převedených stran na 100. Ještě zajímavější mi ale připadal projekt SDK pro Linux, který by měl ostatním vývojářům umožnit vyvíje pro linux kvalitní software, ovšem vzhledem k tomu, že SDK je placené, tak i výsledný program by asi nebyl free. Ale nic takového jsem nenašel.

Závěr

Nejlepší je pokusit se rozchodit OCR, který jste dostali ke skeneru, pod Wine, asi to bude nejkvalitnější převod. dokonce možná půjde přímo skenovat (Wine mě překvapilo s usb připojením se skenerem). Další možností je ClaraOCR, ke skenování používá defaultně xsane a tak nějak to funguje. Pokud si nastudujete syntaxi gocr, můžete převádět hromadně, ale pro větší množství textu se to nehodí vzhledem k relativně velké chybovosti. A koupit ABBYY? Za 150 Euro máte verzi s limitovaným počtem stran na rok.  Upřímně mám dost rozpačité pocity.

P.S. Hurá, něco přeci jen funguje

Úplně nakonec jsem objevil program TopScan ve verzi 3.1, je to freeware, určený pro Windows a funguje pod Wine – skenuje, OCRkuje, ukládá do PDF, ..... a neumí diakritiku:-( Ale třeba je tohle cesta, dokud někdo konečně neudělá pořádné linuxové OCR.

Sdílet