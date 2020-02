Co jsem chtěl ověřit

Z předchozích experimentů jsem vycházel z poznání, že pokud úloha běžela (dlouho) na jednom stroji (ETL job napsaný v Javě – single thread), stejná logika implementovaná v MR a přenesená do experimentálního clusteru 1+3, způsobila nárůst režie a zpracování pak v Hadoop mini-clusteru trvalo 3 až 5× déle (než zpracování na jednom stroji). To je první cena co platíte, když migrujete na Hadoop. To platilo pro jednoduché úlohy typu MAP-SIDE-JOIN. U jiných typů ETL úloh to bylo ještě déle, dokonce i 40× u typu reduce-side-join. To samo o sobě ale není překvapení. Nicméně, nárůst režie byla pořád přijatelná cena za to, co dostanete k tomu. Je to především snadná škálovatelnost díky HDFS a paralelnímu zpracování, vyřešení fault-tolerance apod.

Ihned další otázkou bylo, kam až se musí s velikostí clusterujít, aby to mělo (hlavně) udržitelný ekonomický smysl a jaké zvětšování clusteru přinese zpracování ve stejném nebo lepším čase.

Pro účely testu a srovnávání byly použité (účelově) tyto úlohy, implementované jak v HADOOP/MR, tak i v SPARK/RDD (Scala, případně PySpark):

Úloha analýzy sentimentu v textu – v podstatě všem notoricky známá úloha, kterou každý vyzkouší ihned po “Hello world” když začíná experimentovat s BigData (většinou se pro analýzu využívá dataset z twitter.com). Věta se rozloží na jednotlivá slova, identifikují se slova vyjadřující sentiment (join), dle výskytu pozitivních nebo negativních slov se určí sentiment celé věty (tag – P nebo N). Tag se umístní na konec věty a uloží zpět na disk. Tato úloha byla vybrána z důvodu flexibility pro účel testu. Lze ji implementovat jak pouze v kroku map(), tak i včetně kroku reduce(). Join lze samozřejmě uskutečnit též v libovolně v každém z kroků. Implementace je z perspektivy srovnávání stejná pro Hadoop/MR (Java) a Spark/RDD (Scala). Proč to vše? Jak pro Hadoop i Spark je vidět, jak se projeví zvolený typ implementace, oba zpracovávají stejný objem dat, stejný objem dat si předávají mezi jednotlivými kroky (map či reduce) a stejný objem dat se ukládá na výstupu. Když odděláte krok reduce(), máte přehled, kolik času zabral pouze krok map(). To byl přesně záměr pro dekompozici faktorů, posouzování a srovnávání. Potvrdí pak výsledky, zda je skutečně Spark rychlejší?

– v podstatě všem notoricky známá úloha, kterou každý vyzkouší ihned po “Hello world” když začíná experimentovat s BigData (většinou se pro analýzu využívá dataset z twitter.com). Věta se rozloží na jednotlivá slova, identifikují se slova vyjadřující sentiment (join), dle výskytu pozitivních nebo negativních slov se určí sentiment celé věty (tag – P nebo N). Tag se umístní na konec věty a uloží zpět na disk. Tato úloha byla vybrána z důvodu flexibility pro účel testu. Lze ji implementovat jak pouze v kroku map(), tak i včetně kroku reduce(). Join lze samozřejmě uskutečnit též v libovolně v každém z kroků. Implementace je z perspektivy srovnávání stejná pro Hadoop/MR (Java) a Spark/RDD (Scala). Proč to vše? Jak pro Hadoop i Spark je vidět, jak se projeví zvolený typ implementace, oba zpracovávají stejný objem dat, stejný objem dat si předávají mezi jednotlivými kroky (map či reduce) a stejný objem dat se ukládá na výstupu. Když odděláte krok reduce(), máte přehled, kolik času zabral pouze krok map(). To byl přesně záměr pro dekompozici faktorů, posouzování a srovnávání. Potvrdí pak výsledky, zda je skutečně Spark rychlejší? Úloha určení hodnoty čísla PI metodou Monte Carlo – přesný popis je zde, zjednodušeně vygenerujete náhodně body (x,y) v definovaném čtverci, v něm uvažujete vepsaný kruh. Z poměru bodů uvnitř a vně vepsané kružnice lze odvodit číslo PI. Oproti všach příkladům, co lze běžně najít, pro účely testu byly náhodné souřadnice vždy načítané z disku. Tento typ úlohy byl zvolen též zcela účelově – opět lze srovnat rychlost práce s diskem a zpracování lze též implementovat v obou případech shodně. Co je ale jiné oproti analýze sentimentu je fakt, že výstup z kroku map() se redukuje pouze na dvě hodnoty (vně či uvnitř kroku). Proč? Dozvíte se později.

– přesný popis je zde, zjednodušeně vygenerujete náhodně body (x,y) v definovaném čtverci, v něm uvažujete vepsaný kruh. Z poměru bodů uvnitř a vně vepsané kružnice lze odvodit číslo PI. Oproti všach příkladům, co lze běžně najít, pro účely testu byly náhodné souřadnice vždy načítané z disku. Tento typ úlohy byl zvolen též zcela účelově – opět lze srovnat rychlost práce s diskem a zpracování lze též implementovat v obou případech shodně. Co je ale jiné oproti analýze sentimentu je fakt, že výstup z kroku map() se redukuje pouze na dvě hodnoty (vně či uvnitř kroku). Proč? Dozvíte se později. Úloha určení hodnoty čísla PI metodou Monte Carlo modifikovaná pro srovnání operace sort() – předchozí typ úlohy v tomto případě byl mírně modifikovaný – místo redukování na dvě hodnoty (vně/uvnitř), výstupem kroku map() byly souřadnice analyzovaných bodů a jejich vzdálenost od bodu (0,0). Právě dle této vzdálenosti se body setřídily a následně uložily do výstupního souboru. Předpokládal jsem, že z výsledků předchozích úloh už bude patrné o kolik je Spark rychlejší v práci diskem a bude možná dekompozice vlivu rychlosti a posoudit „samostatně“ rychlost operace sort().

Závěry dělám z testování v prostředí Amazon AWS v rámco POC, každý typ úlohy zpracovával 200GB vstupní soubor, použitý HW (pokud neuvádím v textu jinak) m5×.large (master i nodes).