Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Ahoj Tome. Na meetupy chodím, jen jsme se...

16. 2. 2020 23:44

ViR

Ahoj Tome. Na meetupy chodím, jen jsme se tam ještě nesetkali osobně. Tohle konrétně se tam ale přece stejně neřeší! Oproti tomu konkrétně problematiku nasazení v ETL, otázky velikosti clusteru a i potenciálu Spark jsme konzultovali přímo spolu - vyměnili jsme si spolu hned několik emailů a řešili to podrobně po publikaci prvního článku.
Popsaný experiment a získané výsledky jen reflektují to, že doporučení dodavatelů technologií bývají hodně “naučené”, odpovědi na konkrétní měřitelné parametry fádní. Spíš doměnky než fakta, případně pel-mel všeho co příjde na mysl. Tohle je třeba to, co já tvrdím že je špatně. Kdybych měl takové odpovědi místo pochybností, neměl bych důvod se srovnáváním zabývat.
Jistě si vzpomeneš, že v diskuzích a příspěvcích k minulého článku se objevovaly hlavně výtky, že Spark je 100x rychlejší a nemá cenu zkoumat Hadoop a jednotlivé typy úloh, které se typicky v ETL používají. Jeden první z takových výstřelů byl právě od Tebe.
Z toho co jsme spolu diskutovali tehdy, experiment nyní ukázal, že u jednostupňových ETL úloh Spark přínos mít nebude. Čas zpracování se u popsaných ETL úloh nezkrátí. Na základě tvého komentáře i další komunikace, naopak Spark neměl mít v Hadoopu žádnou konkurenci. Optimum rychlost/cena lze z výsledků experiment očekávat již při clusteru velikosti 1+10, nikoliv jak jsi uváděl že se to “bude lámat” řádově u 100 a více. Neustále jsi omílal vysoké režie, nedokázal jsi je ale vůbec kvantifikovat. Takže jak nyní uvádíš “200GB dat je strašně málo, abys vyrovnal režii, kterou to má” – to vycházíš ze zkušeností, víš, nebo tipuješ? Velikost 200GB zcela eliminuje zkreslující vliv režie na popisované výsledky. To není doměnka, to je ověřená skutečnost jako u spousty dalších faktů, které jsem v článku uvedl.
Když si projdeš Ty, a i ostatní čtenáři vsechny příspěvky a komentáře, jsou v článku uvedené výsledky, metodika i řešené úlohy jen zpochybňovány (pokud vůbec jsou ještě relevantní k zaměření článku). Nikde jsem ale doposud neviděl konstruktivní konfrontaci přímo výsledků, metodiky, smyslu experimentu. Vše je to o tom, že je "něco" špatně (nebo dokonce vše), nesouvisející nebo tématicky hodně vzdálený link, zpochybňování teoretických a praktických znalostí, ...nebo odkazy na jiné nesourodé technologie, ...prostě téměř vždy "celkově KO".
Co je tedy vlasně špatně? Na základě jednoho experimentu dokážu lépe odhadovat režie, požadavky na HW, performance, Spark nasadit tam kde skutečně bude lepší než Hadoop (nikoliv dle bludu 100/10/3x). Tím pádem mohu lépe odhadnout pořizovací a provozní náklady, škálovat celé řešení, lépe plánovat další rozvoj. Nemusím spoléhat jen na výstřely od pasu. Mám exaktní, měřitelné a zdokumentované podklady. I když bych zjistl, že něco z toho je nepřesné, napravím to a zase mám bázi na které mohu dál stavět. Toto je tím co dle Tebe "celé vypadá špatně"?
- Zobrazit celé vlákno

Vilém Řezníček

Poslední názory

Témata

Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Ahoj Tome. Na meetupy chodím, jen jsme se...

Vilém Řezníček

Poslední názory

Témata

Dále u nás najdete

Jsou prompty pro AI chatboty autorským dílem?

Vesna a další, kdo přežili volný pád z několika kilometrů

Vypněte si sledování v novém Firefoxu

„Letní sádra“ sice může do vody, na plavání a tobogány ale zapomeňte

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Motání hlavy může být způsobeno problémy s krčními tepnami

Plavání s hlavou nad vodou vám ubližuje

Nevyléčitelně nemocní získají příspěvek automaticky

Allegro v ČR spouští výdejní boxy, WE|DO se mění na One by Allegro

Jejich čaje mají poctivé složení i originální názvy

Popálená tvář, zlomená páteř. Elektřina mrzačí i bez doteku drátů

Propagační leták v Canvě zvládnete za pár minut

Albert testuje umělou inteligenci, ušetří čas pokladním i zákazníkům

CrowdStrike: slabá představivost a problém lidského faktoru

Impregnace škodí životnímu prostředí i zdraví

Pořad 168 hodin v České televizi končí

Tesco na jedné straně plasty šetří, na druhé jimi ale plýtvá

Trdlokafe otevřelo první pobočku v USA

Musk: Humanoidní roboty začne Tesla používat už příští rok

Jednu vanilkovou, nebo spíš kopeček slaného karamelu?