Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ded.kenedy - Ten experiment je od zacatku blbe navrzeny. Neni...

10. 2. 2020 14:46

ded.kenedy

Ten experiment je od zacatku blbe navrzeny. Neni divu, ze to vyjde +/- stejne, kdyz obe reseni delaji +/- to same.

Doporucuji precist minimalne prvni paper o RDD, kde je vysvetleno, proc muze byt RDD (spark) o rad az dva rychlejsi nez MR (hadoop). Zjednodusene by se dalo rict, ze je to zpusobem, jak resi fault-tolerance. MR uklada data mezi jednotlivymi kroky na disk, aby se k nim v pripade vypadku uzlu dalo vratit. RDD uklada pouze informaci o tom, jakymi kroky se k danemu useku dat (partition) da dopocitat v pripade, ze dany uzel vypadne. Coz vyrazne redukuje mnozstvi operaci zapisu, kterou jsou u HDFS opravdu neskutecne pomale.

Pokud mam ulohu, ktera se sklada z jedne operace map (flatMap), musi Hadoop i Spark nacist data do pameti, transformovat a ulozit, neni tam misto pro zadne optimalizace zapisu. Pokud mam ulohu, ktera se sklada z fazi map a reduce, MR (hadoop) dela jeste mezikrok (combiner, byl pouzit?), ktery opet urcitym zpusobem redukuje mnozstvi zapsanych dat na disk, takze rozdily se stiraji. Proto u takto jednoduchych transformaci je v podstate jedno, jestli pouzijes Hadoop nebo Spark.

Spark dava smysl u algoritmu, kde ten pocet kroku je vetsi, typicky u iterativnich algoritmu, kde vystup jednoho kroku vypoctu je vstupem dalsiho kroku. Tam se opravdu projevi to, ze po kazdem kroku neni potreba vsechno ulozit na disk. U uloh, ktere resim (analyza tabulkovych dat), to dava zrychleni opravdu nekde mezi 10x az 100x (podle velikosti dat a algoritmu).
- Zobrazit celé vlákno

Vilém Řezníček

Poslední názory

Témata

Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ded.kenedy - Ten experiment je od zacatku blbe navrzeny. Neni...

Vilém Řezníček

Poslední názory

Témata

Dále u nás najdete

Labioplastika neslouží jen vyššímu sebevědomí

Jsou prompty pro AI chatboty autorským dílem?

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Vypněte si sledování v novém Firefoxu

Intolerance lepku byla po staletí záhadou. Vysvětlil ji až hladomor

ČT musela upravit reportáž v iVysílání

Motání hlavy může být způsobeno problémy s krčními tepnami

Popálená tvář, zlomená páteř. Elektřina mrzačí i bez doteku drátů

Kolik a čeho mají vypít při sportu v horkém létě

Výrobci nemusí udávat přesné složení parfémů

Impregnace škodí životnímu prostředí i zdraví

Musk: Humanoidní roboty začne Tesla používat už příští rok

Příčina obřího IT výpadku? Chyba aktualizace

Proč vystavujeme zápočtový list a proč ho vyžadujeme?

Zmatek u důchodové reformy, stejný termín pro dvě opatření

Separační úzkost je normální součástí vývoje dítěte

Chráníme totožnost podatele podnětu, tvrdil úřad

Jednu vanilkovou, nebo spíš kopeček slaného karamelu?

Tesco na jedné straně plasty šetří, na druhé jimi ale plýtvá

Změny v českém maloobchodu, Electro World se mění na Datart