Šok: Oficiální e-knihy vznikají pomocí technologie OCR

1. 4. 2014 16:49 (aktualizováno) Ondřej Caletka

Šokující titulek, datum vydání prvního dubna. To vypadá jako aprílový žert. Kéž by…

Tímto zápiskem bych rád navázal na předchozí zápisek o tom, kterak je možné e-knihu pro Kindle rozebrat, opravit a znovu sestavit. K jeho napsání mě vyprovokoval nákup e-knihy Robert Galbraith − Volání Kukačky od nakladavatelství Plus, kterou jsem zakoupil v obchodě eReading.cz. Uvedená kniha byla vysázena neproporcionálním fontem malé velikosti, což mě samo o sobě donutilo k obrácení se na podporu eReadingu. Ta slíbila, že zajistí nápravu a informuje mě o tom, kdy si budu moci opravenou verzi stáhnout. Od této reakce z 20. února 2014 se nic dalšího nestalo.

Podivné tečky

Font knihy jsem si tedy opravil sám a dal se do čtení. První co mě praštilo do očí, bylo podivné používání teček, například:

„Je to. jste v pořádku?” zeptal se Strike a dal si záležet, aby nepohlédl do míst pravděpodobného zranění.„No… já vlastně… chtěl bych… jestli by se nedalo jen zkontrolovat. já myslím, že my dva se už známe.” „Opravdu?”

Pohled do PDF verze e-knihy, která vypadá, že na rozdíl od ostatních vznikla ze stejného zdroje, jako podklad pro tiskárnu papírové knihy, odhalí, kde je problém:

Ukázka PDF verze

Došel jsem k závěru, že se musí jednat o nějaký omyl při exportování HTML verze knihy, kde došlo k nahrazení znaku výpustky (…) za znak tečky. Nahradil jsem tedy všechny výskyty tečky, za kterou následuje malé písmeno, znakem výpustky.

Polámané odstavce

Některé odstavce e-knihy se lámou uprostřed věty. Pohled do PDF ukazuje, že jde o stránkový zlom:

„Promiňte… moc se omlouvám,” ozval se přerývaně Bristow, když se dveře zavřely. „To je… já normálně ne… už jsem se vrátil do práce, jednám s klienty…” Několikrát se zhluboka nadechl. Se zarudlýma očima se teď'podobal ještě víc albínskému králíkovi. Pravé koleno mu pořád cukalo, poskakovalo nahoru a dolů.

Příklad zlomeného odstavce

Chyby OCR

Zatímco oba předchozí problémy by se teoreticky daly vysvětlit i nějakým problémem během exportu textu ze sázecího systému do HTML, další vady už dokládají něco, co by mě ani ve snu nenapadlo, totiž je originální e-kniha vznikla pomocí technologie převodu obrazu na text. Dá se toho všimnout už v předchozí ukázce, na konci prvního odstavce, kde za slovem „teď“ následuje ještě nadbytečný apostrof. Další výživné ukázky je možné najít všude tam, kde v tištěné knize použili speciální font nebo řez. U ukázky jsem naschvál nechal viditelné i HTML značky, aby bylo vidět, jak se střídají styly po jednotlivých znacích (jak typické pro OCR):

DUFFIELD NA NÁVŠTĚVĚ u SMRTELNÉHO LOŽE LTJLINY MATKY
a Bestiguiových chyběly. První záznam Wilson učinil v 9.10 při příchodu pošťáka; další v 9.22, to dorazila <span class=„t10“>Donáška kv</span><span class=„t10“>ě</span><span class=„t10“>tin do bytu</span> <span class=„t10“>č.</span> <span class=„t10“>2</span><span class=„t7“>;</span> a konečně v 9.50 <span class=„t7“>Securibeí</span>í. U záznamu kontrolora alarmů nebyl doplněný žádný čas odchodu.

Ukázka OCR chyb

Co s tím?

Možná nejlepší by bylo namísto prostého požadavku na podporu v daném případě poslat regulérní reklamaci a žádat opravení vad. Budete-li neoblomní, získáte od prodejce přinejmenším refundaci formou kreditu na další nákup (jako v komentáři 17 pod sada patchů, kterou jsem aplikoval na zdrojové HTML soubory. Kromě toho jsem text projel známým nástrojem vlna, který nahradil mezery po jednopísmenných předložkách za nedělitelné. Tenhle patch jsem ale ze sady radši vyřadil, protože změn bylo tolik, že by to mohlo být nad rámec zákonné licence pro citaci.

Tento zápisek berte prosím také jako otevřený dopis nakladatelství, které se dokonce zaštiťuje legendární značkou Albatros. Způsob, jakým se chová k české verzi světového bestselleru je krajně neuctivý. Možná by nebylo od věci informovat o problémech původní nakladatelství a doporučit, aby zvážilo další poskytování exkluzivních licencí tomuto nakladatelství.

Sdílet