Názor ke článku Šok: Oficiální e-knihy vznikají pomocí technologie OCR od Tomik - Mnohá PDF se skutečně ženou přes OCR, protože...

1. 4. 2014 16:13

Tomik (neregistrovaný)

Mnohá PDF se skutečně ženou přes OCR, protože nakladatelé u knih často ani nic jiného nemají. A některá PDF jsou tak mizerně masterovaná, že text nejde extrahovat či hůře jsou v textu PDF takové chyby (diakritika, chybějící sekce, písmena, ...), že se to nevyplatí opravovat a sjet to OCR-only i s následnou korekturou je efektivnější.

Nevyjadřuji se ale ke konkrétnímu nakladateli, distributorovi ani obchodu, situace taková obecně je a je to celkem problém, který pak e-knihy (jako celek) dost prodražuje.

Nejčtenější články autora