OCR v linuxu II - co dnes opravdu můžeme používat

19. 10. 2014 22:49 (aktualizováno) Jan Kulhánek

Přemýšlel jsem, jestli nové zkušenosti, které jsem získal z podnětné diskuze pod textem OCR v linuxu nebude lepší přidat jako další odstavec do zmíněného textu. Ale pak jsem se rozhodl se trochu rozepsat i s návodem k instalaci.

UPDATE: Novější informace o OCR najdete v tomto článku.

Hledáme-li pohodlný program pro slušené skenování textu, můžeme si podle mě vybrat ze čtyř možností.

1. gscan2pdf

gocr2pdf

Jde o program, využívající gocr, případně Tesseract (ten ovšem zatím nepodporuje češtinu, což je škoda, je totiž úspěšnější). Používá prostředí GTK a SANE, dobřše detekuje skener, má řadu možností v nastavení a umí hromadné OCR více stran. Instalace je snadná, program je v repozitáři (zkoušel jsem v Ubuntu):

sudo apt-get install gscan2pdf

Výhodou je snadná instalace, možnosti nastavení, přehledné prostředí. Nevýhodou je pro Čechy i Slováky absence  těchto jazyků pro Tesseract, gocr má podle mě mnohem horší výsledky.

2. YAGF

Jde o QT4 nadstavbu programu Cuneiform (ten lze samozřejmě používat i v terminálu, jde o multilanguage OCR). YAGF je přehledný, umí skenovat pomocí XSANE, převede do textu více stran – a podle mě je v převodu o dost úspěšnější než výše zmíněný gocr2pdf. S češtinou nemá problém, slovenština chybí.

Složitější je instalace, ale dá se to zvládnout. Nejprve nainstalujeme Cuneiform OCR, cmake a qt4. Pak stáhneme ze stránky projektu RPM balíček pro Fedoru, instalační script – postará se o doinstalování grafického prostředí YAGF, nebo arhiv se zdrojáky pro kompilaci.

Pokud tedy nemáte Fedoru (11), nefunguje vám instalační script, pak budeme kompilovat. Rozbalte stažený tar.gz archiv a v adresáři rozbaleného archivu postupně zadejte příkazy:

cmake CMakeLists.txt
make
sudo make install

Program se pouští příkazem yagf, možná bude třeba přidat položku do menu ručně. Nezapomeňte při  skenování nastavit dostatečně jemné rozlišení (doporučuji 300 kpi) a dostatečný kontrast, dále po naskenování či nahrání obrázku vybrat (zamodřit) oblast s textem, jinak to OCR nepobere.

Výhodou je funkční čeština, pěkné prostředí, hromadné převedení textu. Nevýhodou je zpočátku složitější instalace a skromné možnosti nastavení programu.

3. VueSCAN

vuescan

Jde o placený multiplatformní produkt za 40 / 80 dolarů (standard / professional), což mi nepřipadá zase tak moc peněz. Program vypadá dobře, domovské stránky jsou také v češtině a je zde ke stažení archiv pro Red Hat či pro Ubuntu.(samozřejmě kromě Windows). Program se neinstaluje, pouze rozbalíte archiv a spustíte vuescan.

Výhody – vypadá to hezky a četl jsem chválu, ale nemohl vyzkoušet, program hlásí, že můj Canon LIDE 35 není podporovaný v inuxu i když jinde skenuju jako divý. To je možná první nevýhoda aktuální verze – neumí každý skener, který vám funguje v linuxu. Jako další nevýhodu vidím nemožnost načítání naskenovaných souborů, ale to může být tím, že pouštím trial verzi. Pokud OCR funguje opravdu dobře, nebylo by mi líto něco zaplatit. Jak už jsem psal dříve, možnost volby mezi open source a placeným produktem v linuxu podporuju.

4. Aplikace pro Windows – TopOCR, FineReader či jiná

Psal jsem už o TopOCR, který převádí bitmapu s textem do PDF. Pod wine funguje i když ne bez chyby. Podstatné je, že skenuje a převádí, ale pouze jednu stranu. Výsledek měl problémy s diakritikou, takže to moc použitelné není. Ovšem ukazuje to na možnost vyhledat jiný program, který wine zvládne a pomůže tak zalepit díru v nabídce pro linux. Poslední verze Abbyy FineReaderu nefunguje (hlásí to neplatný příkazový řádek, možná by to šlo poladit), ale starší verze (7.0 Professional), kterou jsem dostal ke svému staršímu skeneru, se nainstaluje korektně. Skenování tentokrát nefunguje, ale OCR běží perfektně. Výsledky převodu i možnosti nastavení se s YAGF či gocr2pdf nedají srovnat, bohužel.

finereader

Takže rozpačité pocity přetrvávají i když je teď pro mě situace méně depresivní, beznadějná. YAGF se dá používat, gocr2pdf, respektive Tesseract, by potřebovalo nutně dodělat češtinu, byl by to velký skok kupředu. VueSCAN je slibný, ale asi si ještě počkáme. Aplikace pro Windows jsou jen náplastí, která určitě není bez chyby.

Sdílet