OCR v linuxu

8. 6. 2010 22:03 (aktualizováno) Jan Kulhánek

Pod příspěvkem „Tip na skvělou multifunkční barevnou tiskárnu“ se v diskuzi objevilo téma OCR – rozpoznávání textu z naskenovaného dokumentu. Přiznám se, že jsem už dlouho neměl potřebu takové věci provádět, naposled asi před pěti lety s programem ABBYY FineReader, který jsem dostal ke skeneru. Tehdy jsem o linuxu neměl ani tušení, takže pod WinXP.

Nedalo mi to a hledal jsem co nejlepší software, který bude skenovat, převádět text, bude zvládat češtinu a půjde pracovat se složitějšími dokumenty. Takové parametry mi připadaly pro normální práci s OCR nezbytné. Jo a ještě jsem chtěl nějaké příjemné uživatelské prostředí nebo alespoň snadné použití v terminálu. Postupně jsem ale slevoval, protože jsem opravdu nic nenacházel.

Nakonec mi v síti něco uvízlo – nemá to hezké uživatelské prostředí (bez toho se člověk obejde, zvláště když je to zdarma), není to úplně snadné přes terminál (to se dá naučit), má to potíže s češtinou (hmm, ale trochu jí to umí) a není to vždy zdarma (ale jen poslední kousek). Ale je to OCR!

gocr

Program gocr najdete v repozitáři distribuce (vyzkoušeno v Ubuntu 10.04), jde o CLI prográmek, jednoúčelový pro rozpoznávání textu a poradí si s diakritikou. Dočetl jsem se, že má úspěšnost asi 85%, což není nic moc, s převedeným textem je ještě dost práce. Ale funguje to.

gocr-gtk

Jde o jednu z grafických nadstaveb, využívajících gocr. Vypadá příšerně, moc toho neumí, je to zastaralé, ale vyzkoušet to můžete. Při instalaci to bude chtít několik knihoven, které nejsou v repozitáři a je třeba stahovat a nejprve doinstalovat. Po nainstalování se to pouští v terminálu příkazem gtk-ocr.

Kooka

Další nadstavba pro gocr, tentokrát pro KDE 3.5, takže také se tu vývoj tak nějak zastavil, nemám vyzkoušeno, nic o tom nevím.

ClaraOCR

Opět nadstavba stejného základu, připadala mi použitelná pro jednoduché skenování, navíc v dolní části GUI vidíte parametry, se kterými se pouští gocr, takže je to trochu i výukový program:-) Pro ty, co používají Ubuntu, je tu link na deb balíček.

ABBYY FineReader

Firma ABBYY vyvíjí komerční OCR software, někteří z nás jej dostali k novému skeneru, samozřejmě verzi pro Windows, maximálně pro Mac. Existuje ale i CLI OCR for Linux, ke stažení trial verze, která je omezena počtem převedených stran na 100. Ještě zajímavější mi ale připadal projekt SDK pro Linux, který by měl ostatním vývojářům umožnit vyvíje pro linux kvalitní software, ovšem vzhledem k tomu, že SDK je placené, tak i výsledný program by asi nebyl free. Ale nic takového jsem nenašel.

Závěr

Nejlepší je pokusit se rozchodit OCR, který jste dostali ke skeneru, pod Wine, asi to bude nejkvalitnější převod. dokonce možná půjde přímo skenovat (Wine mě překvapilo s usb připojením se skenerem). Další možností je ClaraOCR, ke skenování používá defaultně xsane a tak nějak to funguje. Pokud si nastudujete syntaxi gocr, můžete převádět hromadně, ale pro větší množství textu se to nehodí vzhledem k relativně velké chybovosti. A koupit ABBYY? Za 150 Euro máte verzi s limitovaným počtem stran na rok. Upřímně mám dost rozpačité pocity.

P.S. Hurá, něco přeci jen funguje

Úplně nakonec jsem objevil program TopScan ve verzi 3.1, je to freeware, určený pro Windows a funguje pod Wine – skenuje, OCRkuje, ukládá do PDF, ..... a neumí diakritiku:-( Ale třeba je tohle cesta, dokud někdo konečně neudělá pořádné linuxové OCR.

Související články na blogu Můj vztah s linuxem - kdy mi pomáhá a kdy mě ničí
- Bitmapa jako ASCII 18. 12. 2011 11:52
- Hromadné přejmenování souborů 19. 6. 2010 23:33
- OCR v linuxu II - co dnes opravdu můžeme používat 9. 6. 2010 0:06
- Vytvořit 2d animaci je v linuxu dřina 19. 12. 2012 23:34
- Práce s grafikou v Androidu a linuxu 12. 7. 2011 11:00
- Jak jsem v Ubuntu tvořil video PF 2011 31. 12. 2010 21:07
Související články na ostatních blozích
- Knihovníci 26. 7. 2013 8:29
- Odstranění bílého pozadí z obrázků v editoru Gimp 17. 6. 2013 11:27
- Když se vám zblázní DPI 12. 10. 2012 10:35
- Prezi a Linux: přehrávání offline 9. 5. 2010 15:37
- Jak stahovat celá alba z Google Picasa v Linuxu 1. 2. 2009 11:54
- Konečně pořádný tool! 26. 3. 2008 12:45

Přidat názor

8. 6. 2010 1:11

Zbynek (neregistrovaný)

Zkus Cuneiform s YAGF píše se o něm na http://www.penguin.cz/novinky-view.php?id=1251 .
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 7:41

František (neregistrovaný)

tak s OCR se trápím už 14 dní. Potřebuji hromadně převést několik stovek stran českého textu. Největší problém vidím v uspokojující kvalitě zpracování české diakritiky (a to nejsem žádný hnidopich na 100% výsledky). Když už jsem se myšlenkově rozloučil s nějakým programem zdarma, narazil jsem na to, že ani z placených aplikací se mnoho nevyberu. Je to prostě tragické.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 7:46

František (neregistrovaný)

ad minulý příspěvek) vidím ale dvě naděje: nalezení nějakého jednoduše učícího se OCR a vytvoření vlastních datových souborů (nevím jak to říct, však vy tušíte co tím mám na mysli). Zde bych zmínil projet tesseract, který by teoreticky měl být schopen naučit se češtinu. Je to však práce na mé síly.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 9:16

Valoun (neregistrovaný)

http://tesseract-ocr.googlecode.com/svn/trunk/tesseract.spec Tady je czech zmíněno, možná to bude někde v trunku k dohledání. Ale nezkoušel jsem.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 9:19

peter (neregistrovaný)

a čo VueScan?
http://www.hamrick.com/
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 9:31

martin (neregistrovaný)

Já jsem měl zatím nejlepší zkušenost s Tesseractem (v Debianu balík tesseract-ocr). Musel jsem si trochu hrát s parametry na příkazové řádce, ale fungoval velmi dobře.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 9:32

dan (neregistrovaný)

[3] Tak napr. tuna sa o toto pokusaju so slovencinou: http://www.sk-spell.sk.cx/OCR
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 10:25

Jindřich (neregistrovaný)

Cuneiform + YAGF bude zřejmě dobrý program, ale nemá balíčky pro mnou používaný Debian stable. Když jsem to po jisté době ani za pomoci nějakých těch obezliček nerozchodil, stáhl jsem tentýž program pro Windows (http://en.openocr.org/, POZOR, stáhnout anglickou verzi z druhého linku), má to i GUI podobné YAGF. Takže pokud máte přístup k Windows, váš problém je vyřešen. Češtinu to zvládá výtečně.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 13:14

Jouda (neregistrovaný)

Cuneiform mi nechodi. z scanu stranky mi nerozpoznal ani slovo. :(
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 13:19

Pavel Kysilka (neregistrovaný)

>>Ale třeba je tohle cesta, dokud někdo konečně neudělá pořádné linuxové OCR.

Osobne bych do vyvoje OCR sel uz nekolik let. Ale musel by to nekdo zaplatit.
Nemusi to byt nutne otevrene, ale bylo by vhodne, aby to bezny uzivatel pod Linuxem mohl pouzivat.

Spodni hranici doby vyvoje bych videl na 1 clovekorok na full-time a za kolik, to je spise na soukromou konverzaci (prazske nestudentske ceny).

gf
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 13:21

mtd (neregistrovaný)

sveho casu jsem chtel napsat vlastni ocrko pod linux. jenze kdyz jsem se o to nejakou dobu pokousel a uvedomil jsem si, kolik casu mi to zabere (a nic z toho nebudu mit), tak jsem projekt zrusil. cilem bylo ocr, ktere bude schopne produkovat ponekud strukturovanejsi vystup. tj. pozna, co je nadpis, vzorce rozlozi do popisu typu - reknem - TeXoveho zapisu, pozna cisla stranek apod. a hlavne, to ocr jsem navrhoval na davkove zpracovani.

no nic, byl to zajimavy projekt, ale umrel.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 13:33

Jindřich (neregistrovaný)

[9] Pozor na rozlišení, chce to aspoň 300 dpi. Při 100 dpi se může stát, že výsledkem bude prázdný soubor.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 15:10

Martin (neregistrovaný)

Dlho som nic nepotreboval skenovat a pouzivat OCR, ale prednedavnom som prisiel na zaujimavy sposob. Irfanview, ktory sluzi na prehliadanie fotiek vie (mam taky dojem, ze je to ako plugin) OCR. Dokonca priamo podporuje cestinu (az 2 typy, rozdiel som nenasiel). Skusal som to na par A4 plnych pisma a islo to dost dobre. Na to, ze je to maly plugin som prijemne prekvapeny.
Oplati sa vyskusat :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 20:47

Jiří J. (neregistrovaný)

gocr a jeho varianty jde poměrně dobře použít na kvalitní anglický naskenovaný text, ale captcha v jakékoli formě (čená na bílém pozadí) mu dělá neskutečné problémy - ze 4 znaků (písmena, číslice) přeloží sotva první (podotýkám, že písmena se dokonce ani vzájemně nedotýkají/nepřekrývají, jen jsou od sebe různě vzdálena a otočena o 1-10 stupňů)
podobně je na tom většina utilit pro "OCR" na linuxu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 20:54

lahwaacz (neregistrovaný)

Doporučuji program gscan2pdf - funguje jako grafická nadstavba nad gocr i tesseract. Samozřejmostí je skenování vícestránkových dokumentů, hromadné ocr, export do formátů pdf, jpg, gif, png, djvu a další, navíc nabízí i několik filtrů pro zpracování obrázku, např. ořez, vyčištění aj. S češtinou má problém gocr i tesseract (pokud se nepletu - ten používá slovník Thesaurus, který v české podobě není dostupný - to bude zřejmě hlavní problém), ale jinak mi tesseract přijde kvalitnější. Mezi hlavní nedostatky bych zařadil hlavně poněkud vyšší hardwarovou náročnost (závislá na objemu zpracovávaných dat).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
8. 6. 2010 23:07

Poborskiii (neregistrovaný)

Kooka je průběžně vyvíjena i pro KDE4, aktuálně ve verzi 0.60 + svn, ale nemám přehled, jak je to daleko - http://techbase.kde.org/Projects/Kooka
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 6. 2010 10:54

phoenix (neregistrovaný)

Uz jsem hodne dlouho nepotreboval OCR, ale to nejlepsi s cim jsem se na tomto poli kdy potkal byla Recognita Plus - vyrobek madarske provenience. Podpora cestiny byla velmi dobra, umelo se to ucit a zachovavat formatovani textu s exportem napr. do Wordu. Tusim, ze to slo naucit i slitky. Jejim minusem bylo, ze existovala jen pro Windows a vyzadovala HW klic. Je to ale vice jak 15 let zpatky, a tak uz mozna tez skoncila v propadlisti dejin jako sposta jinych velmi dobrych programu :-(
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 6. 2010 11:59

ps (neregistrovaný)

ABBYY FineReader pre Windows je skvely program a s cestinou (i slovencinou) funguje vyborne. S Linuxovou verziou nemam skusenost, ale na Windows verziu nedam dopustit.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 6. 2010 8:58

Marcusant (neregistrovaný)

OCR se zabývám profesionálně a po dlouhém prozkoumávání scény musím smutně konstatovat, že jediným použitelným programem se slušnou lokalizací je ABBYY FineReader ve verzi 10, který se mi ale a podle informací z netu ani nikomu jinému pod wine spustit nepodařilo. Zmiňovaná verze 7, která pod wine funguje se zejména v souvislosti s dodržním sazby textu s aktuální verzí 10 nedá srovnávat.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 8. 2010 8:32

luoace2@gmail.com (neregistrovaný)

No pain, no gains.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2015 13:43

vítek (neregistrovaný)

rozloučil jsem se s win7 - už to nešlo dál
nejsem IT kouzelník, syn mi nainstaloval UBUNTU
teď mi nastavá problám se SW
jsem trochu fajnšmekr, proto asi mám problémy
LIBREOFFICE - UBUNTU verze bez problému
CALIBRE - bez problémů, trochu tápu při vytváření hypertet odkazů
knihovnu používám multimediálně - ukládám jakékoli soubory
potřeboval bych MM čtečku, která by dokázala číst skoro všechno a podobně i konvertovat soubory
FREEMIND - trochu pokulhává proti XMIND, ale s přimhouřenýma očima se snad dá používat
OCRFEEDER - neumí češtinu a dost tápu při obsluze - jsem rozmlsanej s FINE READER, ale nevadila by mi jednodušší verze - poradí někdo?
pošťák - potřebuji obsluhovat několik účtů, jsem rozmlsanej z WLM - poradí někdo něco slušného
pokud budete mít chvíli času, dík za rady
vítek
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2015 14:31

jank (neregistrovaný)

K OCR:
Variant OCR pro Linux je několik, zdaleka ne všechny programy jsou použitelné. Z open source projektů se mi neljépe osvědčil program Tesseract OCR - původně komerční produkt. Přehledná je grafická nadstavba YAGF. Úspěšnost převodu je i podle diskusních fór na velmi dobré úrovni, což mohu potvrdit, program lze dnes instalovat z repozitáře. K placeným produktům patří ABBY FineReader.

MM čtečka - nevím,c o tím myslíte. Pro přehrávání audia i videa jsou předinstalované aplikace, jinak dobrý je třeba VLC, ale přehlrávačů je moře. Pro konverzi formátů používám WinFF (video), SoundConverter (audio), HandBrake (rip DVD), SoundJuicer (rip CD), pokročilejší konverze videa s AviDemux. Všechno se instaluje přes centrum software.

Přidat názor

Jan Kulhánek

Jan Kulhánek pracuje jako psycholog a psychoterapeut, prací s počítači si přivydělával hlavně při studijích. Do světa Linuxu začal více pronikat asi před třemi lety (2007), kdy si nainstaloval Ubuntu jako druhý systém. U této distribuce už zůstal i když rád experimentuje a občas zkouší různé novinky. Je „běžný“ uživatel desktopu, od kterého chce, aby byl user-friendly pro každodenní použití. Občas si skládá muziku, dělá trochu grafiku hlavně pro různé webové projektíky, stříhá video. Počítače jsou dlouhodobým koníčkem.

Sdílet

Související články na blogu Můj vztah s linuxem - kdy mi pomáhá a kdy mě ničí

Bitmapa jako ASCII 18. 12. 2011 11:52

Hromadné přejmenování souborů 19. 6. 2010 23:33

OCR v linuxu II - co dnes opravdu můžeme používat 9. 6. 2010 0:06

Vytvořit 2d animaci je v linuxu dřina 19. 12. 2012 23:34

Práce s grafikou v Androidu a linuxu 12. 7. 2011 11:00

Jak jsem v Ubuntu tvořil video PF 2011 31. 12. 2010 21:07

Související články na ostatních blozích

Knihovníci 26. 7. 2013 8:29

Odstranění bílého pozadí z obrázků v editoru Gimp 17. 6. 2013 11:27

Když se vám zblázní DPI 12. 10. 2012 10:35

Prezi a Linux: přehrávání offline 9. 5. 2010 15:37

Jak stahovat celá alba z Google Picasa v Linuxu 1. 2. 2009 11:54

Konečně pořádný tool! 26. 3. 2008 12:45

Jan Kulhánek

Nejčtenější články autora

Poslední názory

Témata

OCR v linuxu

Sdílet

Související články na blogu Můj vztah s linuxem - kdy mi pomáhá a kdy mě ničí

Bitmapa jako ASCII 18. 12. 2011 11:52

Hromadné přejmenování souborů 19. 6. 2010 23:33

OCR v linuxu II - co dnes opravdu můžeme používat 9. 6. 2010 0:06

Vytvořit 2d animaci je v linuxu dřina 19. 12. 2012 23:34

Práce s grafikou v Androidu a linuxu 12. 7. 2011 11:00

Jak jsem v Ubuntu tvořil video PF 2011 31. 12. 2010 21:07

Související články na ostatních blozích

Knihovníci 26. 7. 2013 8:29

Odstranění bílého pozadí z obrázků v editoru Gimp 17. 6. 2013 11:27

Když se vám zblázní DPI 12. 10. 2012 10:35

Prezi a Linux: přehrávání offline 9. 5. 2010 15:37

Jak stahovat celá alba z Google Picasa v Linuxu 1. 2. 2009 11:54

Konečně pořádný tool! 26. 3. 2008 12:45

Jan Kulhánek

Nejčtenější články autora

Poslední názory

Témata

Dále u nás najdete

Český projekt umí hledět AI agentům pod ruce

Konflikt v Íránu a jeho okolí ohrozí globální výdaje na IT

Umělá inteligence už řídí i top manažery tuzemských firem

Náklady na jazykové modely LLM se do pěti let až desetkrát sníží

Jak na slevu z pojistného pro pracující důchodce?

Dotazy a odpovědi kolem okruhu zaměstnanců pro účely JMHZ

Krátké připomenutí povinností před spuštěním JMHZ

Nachlazení, zápal plic, černý kašel. Laik nemusí rozdíl poznat

Chytré televizory pod přísnějším dohledem?

Licenční smlouva: K čemu slouží a jak ji správně napsat

Tajemství čokoládového zajíce: Jak vznikla ikona velikonočních regálů

Jídlo bez mobilu, večerka „offline“. Desatero digitálního zdraví

Microsoft odstraní Copilot Chat v některých aplikacích M365

VZP zavede nový bonus za očkování proti chřipce

Končí lhůta pro papírová přiznání za rok 2025

Posuzování přínosů AI pro firmy se musí změnit

Doplňující údaje o zaměstnancích pro účely JMHZ

Nebezpeční hackeři zneužili i českou infrastrukturu

Daňové přiznání za rok 2025: Vše, co potřebujete vědět

Kolika podnikatelů se dotkne EET 2.0? MFČR odhaduje 600 tisíc