Odpověď na názor

Odpovídáte na názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy.

10. 2. 2020 19:26

ViR

Díky za komentář. Můj záměr a celá ta evoluce těch experimentů probíhala přesně naopak. Aby ty samé řešení předvedly kdo (a jak moc) je rychleší. Na začátku (a myslím jsem to i v textu zmiňoval), jsem chtěl porovnat implementaci stejné úlohy na Hadoop/MR a Spark/RDD. Očekával jsem, že Spark opravdu ukáže, že je snad až 100x rychlejší, že je 10x rychlejší s diskem, a že sort() provede 3x rychleji. No a teprve pak se dostavil výsledek. Že to vyšlo v podstatě stejně, a nedá se říct, že je Spark rychlejší v porovnáním s Hadoop jak se tvrdí (u ETL úloh), byl výsledek jedno velké zklamání.

Fault tolerance jsem vůbec neřešil, dokonce jsem v případě incidentů výsledky ihned ignoroval, abych jejich vliv eliminoval při srovnávání. Spark padá častěji a Hadoop skoro vůbec (tzn. tam by to spíš stejně bylo v neprospěch Spark). Souhlasím pak s tím, jak zmiňujete, že v rámci RDD (resp. spíše díky DAG!!!!!), SPARK může dosahovat lepších výsledků. Vracím se ale k tvrzení v článku: jestli to někde ale může zafungovat, bude to vždy na řádku co jsem naznačil. V průběhu kroku map() se u srovnávacích implementací DAG neprojeví na rychlosti, roli to začne hrát až ve zpracování následujících kroků (pozn. samozřejmě u stejné implementace na obou, u úloh kde data troughput je výrazně nad možnosti zpracování pouze v RAM, nebo podobných ETL).

A díky za zmínku "iterativních algoritmů" a více kroků v rámci jedné implementace. Právě tam DAG dá Spark(u) vyniknout. Sice to okamžitě vylučuje Hadoop ze hry (omezení pouze jedoho cyklu M-R), v kontextu ale "na co se soustředit aby Spark dával smysl implementovat místo Hadoop" je to velmi vhodná připomínka
- Zobrazit celé vlákno
- 23 Hodnotit: Výborně!
- Nahlásit moderátorům jako SPAM

Přidávat názory mohou pouze přihlášení uživatelé.

Přihlásit nebo Registrace

Přidávat názory mohou pouze přihlášení uživatelé.

Vilém Řezníček

Poslední názory

Témata

Odpověď na názor

Přidávat názory mohou pouze přihlášení uživatelé.

Vilém Řezníček

Poslední názory

Témata

Dále u nás najdete

Na dotace na zateplení zapomeňte. Nová vláda vykleští NZÚ

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Bitcoinová burza omylem rozdala 40 miliard dolarů

Windows budou důkladněji chráněny před AI agenty

JMHZ a změny v daních z příjmů v roce 2026 a 2027

Ke kuplířství nedocházelo, říká obžalovaný z kauzy Sex.cz

Malware, ransomware a další online hrozby: Jak se liší?

AI se snaží promlouvat i do stavebnictví

Příspěvek na produkty spoření na stáří a daň z příjmů

Je tu první vydání magazínu CIOtrends v tomto roce

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Strojové učení slibuje rychlejší a levnější vývoj baterií

Začínající podnikatel: Základní termíny a marketing

Notepad++ opravil chybu zneužívanou k šíření malware

30 % nákladů díky AI dolů, ale nuda v práci jde nahoru

USA chystají web na obcházení blokací obsahu

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Analýza rozebrala moderování Jílkové v Máte slovo

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky