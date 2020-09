Data by se neměla skrývat, proto je taky fajn mít otevřená data. A je dobře, když jsou k nim přibaleny hezké vizualizace. Jenže co když nás ty grafy matou?

Na jaře letošního roku jsem byl docela nadšený sledováním dat ohledně pandemie. Tedy, jsou to z mnoha důvodů dost nepřesná data, která slouží spíše k velmi hrubé orientaci. Nicméně je ohromně fascinující si natáhnout všechna letošní čísla do R a prozkoumat.

To bylo jaro, jenže teď už je pomalu podzim a pandemii máme pořád. Všechny možné skripty a nástroje na vizualizaci už byly vymyšleny, je to nuda a všichni bychom mohli hromadně složit státnice z epidemiologie. A nebo ne?

Neskryješ data bližnímu svému

Když už se rozhodneme pro vizualizaci dat, měli bychom vzít v úvahu, komu a proč chceme data prezentovat. Co má graf ukázat? Jako otázku má zodpovědět?

Většinou jsem fanouškem jednoduchých, statických grafů. Různá hejblátka, popupy a bubliny podle mne zbytečně odvádějí pozornost od dat samotných. I když je to někdy pěkné, tak je hodně tenká hranice mezi „hele, co ukazují data“ k „hele, co umím“. A pak je to třeba zbytečně na škodu.

Zrovna po delší době koukám na grafy na stránkách našeho Ministerstva zdravotnictví. Lidi, kteří ty statistiky sbírají, tvoří a programují všemožné nástroje, odvedli fakt dobrou práci, vážně jo. Klobouk dolů, líbí se mi to. Jenže člověk stejně musí být pořád ve střehu. Podívejte se třeba na tuto mapku:

Koukám na ni a mám pocit, že náš okres je v pohodě, protože je jen lehoučce růžový, tj. #f3c0cd . Ale něco mi tam nesedí, máme tady okolo 60 nemocných na 100 000 obyvatel. Na začátku srpna jsme třeba měli o něco méně, necelých 50 nemocných na 100 000 obyvatel, a byli jsme dost sytě růžoví, tj. #d31145 ! Podívejte se sami, jde o Frýdek-Místek:

Na první pohled by náhodný kolemjdoucí řekl, že jsme na tom lépe než v srpnu, nemoc se přesunula do jiných okresů a my na východním cípu republiky jsme to konečně zkrotili. Blahopřejeme, zvládli jste to, můžete do kina a k moři. Ale z čísel vidíte, že je tomu jinak, úplně naopak! Přestože jsme nyní tak chvályhodně světloučcí, zdraví a růžolící, relativní počet nemocných naopak od té doby vzrostl a ve skutečnosti jsme na tom v této metrice ještě hůře, než když jsme byli hanebně tmavou skvrnou na mapě republiky. Stůjte, stůjte, spletli jsme se, žádné kino, žádné moře, alou zpátky domů.

Důvodem je pohyblivá škála, která se mění každý den. Zatímco na screenshotu ze srpna vidíte škálu od 0 do 47, na novějším screenshotu ze září je to už 0 až 226 při zachování stejného barevného rozsahu. To je ale lumpárna, že jo?

Co tedy ukazují tyto grafy?

Tyto grafy tedy ukazují, jak jsou na tom jednotlivé okresy — v poměru k aktuálně nejhůře postiženému okresu! Vzhledem k tomu, že se šíře růžové škály každodenně mění, neříká tato mapa nic moc jiného. Jestli jste včera byli světlejší a zítra budete tmavší, nebo naopak, vůbec nic to ve vztahu k vývoji onemocnění ve vašem regionu neznamená. Záleží totiž na tom, jak moc postižený je v daný den okres s aktuálně největším počtem nemocných na 100 000 obyvatel. Neboli ještě jinak, mapka ukazuje srovnání okresů v relativním počtu nemocných, nikoli vývoj počtu nemocných. A i takto je ono srovnání docela ošidné (například vzhledem k různé hustotě obyvatelstva).

Takový graf tedy spíše vyvolává nové otázky, než aby poskytoval nějakou jednu jasnou odpověď na jednu jasnou otázku. Nejde však o to, že by byl graf samotný špatný, ale o to, že je třeba se nad každou vizualizací zamyslet a zjistit, jestli z ní nečtu něco jiného, než zamýšleli autoři. (A zamýšleli to, co se zdá, že zamýšleli? A zamýšleli něco?) U této konkrétní růžové mapky by bylo lepší, aby místo škály od 0 do proměnlivého denního maxima měla stabilní škálu od 0 do nějaké rozumné stabilní maximální hodnoty.

Na stejné stránce se nadto střídají ve velmi podobných situacích různě vykreslené grafy (vizte např. přehled nově nemocných za celou dobu vykreslený spojnicovým grafem vs. přehled nově nemocných za posledních 14 dní vykreslený sloupcovým grafem), vybrané možná podle estetického cítění, možná z jiného důvodu, co já vím.

Musíme si prostě dávat pozor, aby grafy data ukazovaly, nikoli zkreslovaly, manipulovaly nebo skrývaly, a abychom my sami z grafů četli jen to, co z nich opravdu vyplývá, a nikoli to, co bychom v nich rádi viděli. Ruku na to, dohodnuto.

Aktualizace 21.9.2020 12:57: drobné typografické chyby.