Názor ke článku Ministerstvo MŠMT v zajetí Microsoftu od K2 - [43] Vytěžování dat pomocí OCR se zpravidla provádí...

  • 12. 2. 2007 23:12

    K2 (neregistrovaný)

    [43] Vytěžování dat pomocí OCR se zpravidla provádí centrálně. Papírových dokumentů se zbavit, firmy je prostě pořád posílají. Samozřejmě fakturu v ODF je také nutné vytěžit, získat line items, srovnat data s DB, poslat do workflow v případě nesrovnalosti údajů atd.

    [44] Pokud Váš Word neotevře to, co jste včera uložil, máte někde zásadní problém. A ve Wordu to fakt nebude. Spíš mám ale za to, že jde jen o laciný pokus o flame. Ad "špatně nastavená" kódová stránka a fonty - přečtete si to po mě ještě jednou. Jde o dokumenty Office 97, psané se zmršenými fonty (typicky ukradenými), které měly špatně Unicode values a kódovou stránku. Když si uděláte font s azbukou na místě normálních písmen, se špatně nastavenou code page a unicode values, tak o azbuku také při konverzi do Unicode přijdete.

    Ve Wordu se dá napsat kniha naprosto bez problémů, velké procento knih tak vzniklo. Některé byly ve Wordu i sázeny, typografická kvalita je slušná (pokud člověk dovede rozeznat divis od m-dash). Dále existují rozšíření typu WordSetter.


    Neúspornost formátu DOC je výrazná při ukládání obrázků ve verzi Word 97. Ale koho dnes mrzí, jestli má soubor 500kB, nebo 1MB, když ho může zabalit do ZIPu? Navíc právě XML vede ke zvětšení objemů dat a pomalejšímu zpracování.

    [45] Nemohu mluvit za XYZ, ale o heterogenních sítích také vím svoje. Také mám za sebou projekty ve velkých firmách, a tedy dobře vím, že kombinace Windows, MacOS, Linuxu a dalších v jedné firmě stylem "sem win, tam OSX, tady Linux" by byla katastrofa. Novell a RedHat nemohou nabídnou homogenní řešení, což vede nutně k problémům (viz přechodzí příspěvky).