Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Díky za komentář. Můj záměr a celá ta...

10. 2. 2020 19:26

ViR

Díky za komentář. Můj záměr a celá ta evoluce těch experimentů probíhala přesně naopak. Aby ty samé řešení předvedly kdo (a jak moc) je rychleší. Na začátku (a myslím jsem to i v textu zmiňoval), jsem chtěl porovnat implementaci stejné úlohy na Hadoop/MR a Spark/RDD. Očekával jsem, že Spark opravdu ukáže, že je snad až 100x rychlejší, že je 10x rychlejší s diskem, a že sort() provede 3x rychleji. No a teprve pak se dostavil výsledek. Že to vyšlo v podstatě stejně, a nedá se říct, že je Spark rychlejší v porovnáním s Hadoop jak se tvrdí (u ETL úloh), byl výsledek jedno velké zklamání.

Fault tolerance jsem vůbec neřešil, dokonce jsem v případě incidentů výsledky ihned ignoroval, abych jejich vliv eliminoval při srovnávání. Spark padá častěji a Hadoop skoro vůbec (tzn. tam by to spíš stejně bylo v neprospěch Spark). Souhlasím pak s tím, jak zmiňujete, že v rámci RDD (resp. spíše díky DAG!!!!!), SPARK může dosahovat lepších výsledků. Vracím se ale k tvrzení v článku: jestli to někde ale může zafungovat, bude to vždy na řádku co jsem naznačil. V průběhu kroku map() se u srovnávacích implementací DAG neprojeví na rychlosti, roli to začne hrát až ve zpracování následujících kroků (pozn. samozřejmě u stejné implementace na obou, u úloh kde data troughput je výrazně nad možnosti zpracování pouze v RAM, nebo podobných ETL).

A díky za zmínku "iterativních algoritmů" a více kroků v rámci jedné implementace. Právě tam DAG dá Spark(u) vyniknout. Sice to okamžitě vylučuje Hadoop ze hry (omezení pouze jedoho cyklu M-R), v kontextu ale "na co se soustředit aby Spark dával smysl implementovat místo Hadoop" je to velmi vhodná připomínka
- Zobrazit celé vlákno

Vilém Řezníček

Poslední názory

Témata

Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Díky za komentář. Můj záměr a celá ta...

Vilém Řezníček

Poslední názory

Témata

Dále u nás najdete

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Motání hlavy může být způsobeno problémy s krčními tepnami

Vesna a další, kdo přežili volný pád z několika kilometrů

Intolerance lepku byla po staletí záhadou. Vysvětlil ji až hladomor

„Letní sádra“ sice může do vody, na plavání a tobogány ale zapomeňte

Vypněte si sledování v novém Firefoxu

Češi spoluvyvíjí technologii, která může změnit mobilní sítě

Jak se daří novým televizním stanicím?

Test Wi-Fi 7 vs. Wi-Fi 6: Další zvýšení rychlostí

Změny v českém maloobchodu, Electro World se mění na Datart

CrowdStrike: slabá představivost a problém lidského faktoru

Trdlokafe otevřelo první pobočku v USA

Rozjíždí se nový typ podvodů – lajkovací brigády

Praktické tipy pro fyzické osoby, jak ušetřit na daních

Popálená tvář, zlomená páteř. Elektřina mrzačí i bez doteku drátů

Separační úzkost je normální součástí vývoje dítěte

Pořad 168 hodin v České televizi končí

Češi stále nejvíc milují kuřecí řízek a smažák

Kolik a čeho mají vypít při sportu v horkém létě

Zmatek u důchodové reformy, stejný termín pro dvě opatření