Pod příspěvkem „Tip na skvělou multifunkční barevnou tiskárnu“ se v diskuzi objevilo téma OCR – rozpoznávání textu z naskenovaného dokumentu. Přiznám se, že jsem už dlouho neměl potřebu takové věci provádět, naposled asi před pěti lety s programem ABBYY FineReader, který jsem dostal ke skeneru. Tehdy jsem o linuxu neměl ani tušení, takže pod WinXP.
Nedalo mi to a hledal jsem co nejlepší software, který bude skenovat, převádět text, bude zvládat češtinu a půjde pracovat se složitějšími dokumenty. Takové parametry mi připadaly pro normální práci s OCR nezbytné. Jo a ještě jsem chtěl nějaké příjemné uživatelské prostředí nebo alespoň snadné použití v terminálu. Postupně jsem ale slevoval, protože jsem opravdu nic nenacházel.
Nakonec mi v síti něco uvízlo – nemá to hezké uživatelské prostředí (bez toho se člověk obejde, zvláště když je to zdarma), není to úplně snadné přes terminál (to se dá naučit), má to potíže s češtinou (hmm, ale trochu jí to umí) a není to vždy zdarma (ale jen poslední kousek). Ale je to OCR!
gocr
Program gocr najdete v repozitáři distribuce (vyzkoušeno v Ubuntu 10.04), jde o CLI prográmek, jednoúčelový pro rozpoznávání textu a poradí si s diakritikou. Dočetl jsem se, že má úspěšnost asi 85%, což není nic moc, s převedeným textem je ještě dost práce. Ale funguje to.
Jde o jednu z grafických nadstaveb, využívajících gocr. Vypadá příšerně, moc toho neumí, je to zastaralé, ale vyzkoušet to můžete. Při instalaci to bude chtít několik knihoven, které nejsou v repozitáři a je třeba stahovat a nejprve doinstalovat. Po nainstalování se to pouští v terminálu příkazem gtk-ocr.
Kooka
Další nadstavba pro gocr, tentokrát pro KDE 3.5, takže také se tu vývoj tak nějak zastavil, nemám vyzkoušeno, nic o tom nevím.
Opět nadstavba stejného základu, připadala mi použitelná pro jednoduché skenování, navíc v dolní části GUI vidíte parametry, se kterými se pouští gocr, takže je to trochu i výukový program:-) Pro ty, co používají Ubuntu, je tu link na deb balíček.
Firma ABBYY vyvíjí komerční OCR software, někteří z nás jej dostali k novému skeneru, samozřejmě verzi pro Windows, maximálně pro Mac. Existuje ale i CLI OCR for Linux, ke stažení trial verze, která je omezena počtem převedených stran na 100. Ještě zajímavější mi ale připadal projekt SDK pro Linux, který by měl ostatním vývojářům umožnit vyvíje pro linux kvalitní software, ovšem vzhledem k tomu, že SDK je placené, tak i výsledný program by asi nebyl free. Ale nic takového jsem nenašel.
Závěr
Nejlepší je pokusit se rozchodit OCR, který jste dostali ke skeneru, pod Wine, asi to bude nejkvalitnější převod. dokonce možná půjde přímo skenovat (Wine mě překvapilo s usb připojením se skenerem). Další možností je ClaraOCR, ke skenování používá defaultně xsane a tak nějak to funguje. Pokud si nastudujete syntaxi gocr, můžete převádět hromadně, ale pro větší množství textu se to nehodí vzhledem k relativně velké chybovosti. A koupit ABBYY? Za 150 Euro máte verzi s limitovaným počtem stran na rok. Upřímně mám dost rozpačité pocity.
P.S. Hurá, něco přeci jen funguje
Úplně nakonec jsem objevil program TopScan ve verzi 3.1, je to freeware, určený pro Windows a funguje pod Wine – skenuje, OCRkuje, ukládá do PDF, ..... a neumí diakritiku:-( Ale třeba je tohle cesta, dokud někdo konečně neudělá pořádné linuxové OCR.
Zkus Cuneiform s YAGF píše se o něm na http://www.penguin.cz/novinky-view.php?id=1251 .
tak s OCR se trápím už 14 dní. Potřebuji hromadně převést několik stovek stran českého textu. Největší problém vidím v uspokojující kvalitě zpracování české diakritiky (a to nejsem žádný hnidopich na 100% výsledky). Když už jsem se myšlenkově rozloučil s nějakým programem zdarma, narazil jsem na to, že ani z placených aplikací se mnoho nevyberu. Je to prostě tragické.
ad minulý příspěvek) vidím ale dvě naděje: nalezení nějakého jednoduše učícího se OCR a vytvoření vlastních datových souborů (nevím jak to říct, však vy tušíte co tím mám na mysli). Zde bych zmínil projet tesseract, který by teoreticky měl být schopen naučit se češtinu. Je to však práce na mé síly.
http://tesseract-ocr.googlecode.com/svn/trunk/tesseract.spec Tady je czech zmíněno, možná to bude někde v trunku k dohledání. Ale nezkoušel jsem.
[3] Tak napr. tuna sa o toto pokusaju so slovencinou: http://www.sk-spell.sk.cx/OCR
Cuneiform + YAGF bude zřejmě dobrý program, ale nemá balíčky pro mnou používaný Debian stable. Když jsem to po jisté době ani za pomoci nějakých těch obezliček nerozchodil, stáhl jsem tentýž program pro Windows (http://en.openocr.org/, POZOR, stáhnout anglickou verzi z druhého linku), má to i GUI podobné YAGF. Takže pokud máte přístup k Windows, váš problém je vyřešen. Češtinu to zvládá výtečně.
>>Ale třeba je tohle cesta, dokud někdo konečně neudělá pořádné linuxové OCR.
Osobne bych do vyvoje OCR sel uz nekolik let. Ale musel by to nekdo zaplatit.
Nemusi to byt nutne otevrene, ale bylo by vhodne, aby to bezny uzivatel pod Linuxem mohl pouzivat.
Spodni hranici doby vyvoje bych videl na 1 clovekorok na full-time a za kolik, to je spise na soukromou konverzaci (prazske nestudentske ceny).
gf
sveho casu jsem chtel napsat vlastni ocrko pod linux. jenze kdyz jsem se o to nejakou dobu pokousel a uvedomil jsem si, kolik casu mi to zabere (a nic z toho nebudu mit), tak jsem projekt zrusil. cilem bylo ocr, ktere bude schopne produkovat ponekud strukturovanejsi vystup. tj. pozna, co je nadpis, vzorce rozlozi do popisu typu - reknem - TeXoveho zapisu, pozna cisla stranek apod. a hlavne, to ocr jsem navrhoval na davkove zpracovani.
no nic, byl to zajimavy projekt, ale umrel.
Dlho som nic nepotreboval skenovat a pouzivat OCR, ale prednedavnom som prisiel na zaujimavy sposob. Irfanview, ktory sluzi na prehliadanie fotiek vie (mam taky dojem, ze je to ako plugin) OCR. Dokonca priamo podporuje cestinu (az 2 typy, rozdiel som nenasiel). Skusal som to na par A4 plnych pisma a islo to dost dobre. Na to, ze je to maly plugin som prijemne prekvapeny.
Oplati sa vyskusat :)
gocr a jeho varianty jde poměrně dobře použít na kvalitní anglický naskenovaný text, ale captcha v jakékoli formě (čená na bílém pozadí) mu dělá neskutečné problémy - ze 4 znaků (písmena, číslice) přeloží sotva první (podotýkám, že písmena se dokonce ani vzájemně nedotýkají/nepřekrývají, jen jsou od sebe různě vzdálena a otočena o 1-10 stupňů)
podobně je na tom většina utilit pro "OCR" na linuxu
Doporučuji program gscan2pdf - funguje jako grafická nadstavba nad gocr i tesseract. Samozřejmostí je skenování vícestránkových dokumentů, hromadné ocr, export do formátů pdf, jpg, gif, png, djvu a další, navíc nabízí i několik filtrů pro zpracování obrázku, např. ořez, vyčištění aj. S češtinou má problém gocr i tesseract (pokud se nepletu - ten používá slovník Thesaurus, který v české podobě není dostupný - to bude zřejmě hlavní problém), ale jinak mi tesseract přijde kvalitnější. Mezi hlavní nedostatky bych zařadil hlavně poněkud vyšší hardwarovou náročnost (závislá na objemu zpracovávaných dat).
Kooka je průběžně vyvíjena i pro KDE4, aktuálně ve verzi 0.60 + svn, ale nemám přehled, jak je to daleko - http://techbase.kde.org/Projects/Kooka
Uz jsem hodne dlouho nepotreboval OCR, ale to nejlepsi s cim jsem se na tomto poli kdy potkal byla Recognita Plus - vyrobek madarske provenience. Podpora cestiny byla velmi dobra, umelo se to ucit a zachovavat formatovani textu s exportem napr. do Wordu. Tusim, ze to slo naucit i slitky. Jejim minusem bylo, ze existovala jen pro Windows a vyzadovala HW klic. Je to ale vice jak 15 let zpatky, a tak uz mozna tez skoncila v propadlisti dejin jako sposta jinych velmi dobrych programu :-(
OCR se zabývám profesionálně a po dlouhém prozkoumávání scény musím smutně konstatovat, že jediným použitelným programem se slušnou lokalizací je ABBYY FineReader ve verzi 10, který se mi ale a podle informací z netu ani nikomu jinému pod wine spustit nepodařilo. Zmiňovaná verze 7, která pod wine funguje se zejména v souvislosti s dodržním sazby textu s aktuální verzí 10 nedá srovnávat.
rozloučil jsem se s win7 - už to nešlo dál
nejsem IT kouzelník, syn mi nainstaloval UBUNTU
teď mi nastavá problám se SW
jsem trochu fajnšmekr, proto asi mám problémy
LIBREOFFICE - UBUNTU verze bez problému
CALIBRE - bez problémů, trochu tápu při vytváření hypertet odkazů
knihovnu používám multimediálně - ukládám jakékoli soubory
potřeboval bych MM čtečku, která by dokázala číst skoro všechno a podobně i konvertovat soubory
FREEMIND - trochu pokulhává proti XMIND, ale s přimhouřenýma očima se snad dá používat
OCRFEEDER - neumí češtinu a dost tápu při obsluze - jsem rozmlsanej s FINE READER, ale nevadila by mi jednodušší verze - poradí někdo?
pošťák - potřebuji obsluhovat několik účtů, jsem rozmlsanej z WLM - poradí někdo něco slušného
pokud budete mít chvíli času, dík za rady
vítek
K OCR:
Variant OCR pro Linux je několik, zdaleka ne všechny programy jsou použitelné. Z open source projektů se mi neljépe osvědčil program Tesseract OCR - původně komerční produkt. Přehledná je grafická nadstavba YAGF. Úspěšnost převodu je i podle diskusních fór na velmi dobré úrovni, což mohu potvrdit, program lze dnes instalovat z repozitáře. K placeným produktům patří ABBY FineReader.
MM čtečka - nevím,c o tím myslíte. Pro přehrávání audia i videa jsou předinstalované aplikace, jinak dobrý je třeba VLC, ale přehlrávačů je moře. Pro konverzi formátů používám WinFF (video), SoundConverter (audio), HandBrake (rip DVD), SoundJuicer (rip CD), pokročilejší konverze videa s AviDemux. Všechno se instaluje přes centrum software.
Jan Kulhánek pracuje jako psycholog a psychoterapeut, prací s počítači si přivydělával hlavně při studijích. Do světa Linuxu začal více pronikat asi před třemi lety (2007), kdy si nainstaloval Ubuntu jako druhý systém. U této distribuce už zůstal i když rád experimentuje a občas zkouší různé novinky. Je „běžný“ uživatel desktopu, od kterého chce, aby byl user-friendly pro každodenní použití. Občas si skládá muziku, dělá trochu grafiku hlavně pro různé webové projektíky, stříhá video. Počítače jsou dlouhodobým koníčkem.
Přečteno 30 369×
Přečteno 26 924×
Přečteno 26 653×
Přečteno 25 558×
Přečteno 24 178×