Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od Uncaught ReferenceError: - tohle je již pokročilé téma nad úroveň toho,...

21. 2. 2020 21:59

Uncaught ReferenceError:

tohle je již pokročilé téma nad úroveň toho, jaká je u meetupů poptávka, ptej se, lidi, kteří to znají z praxe tam jsou.

Tady jsi připravil ideální situaci pro hadoop, opřel jsi se o výkon disků a čekal jsi, že spark bude 100x rychlejší? Zkus svůj test upravit následně a sleduj jak se mění rozdíly i pro jednostupňovou úlohu:
- zvyš počet soubor na desítky tisíc, hadoop má velké problémy s mnoho soubory a neumí je efektivně združovat, spark se s tím vypořádává lépe
- nenačítej celou bázi dat, ale její část (tj. začni filtrovat, v praxi málokdy vidím potřebu načíst úplně vše), použij jiný formát souborů pro spark (parquet, orc), kde díky sloupcovému uspořádání si dobře rozumí s filtrováním
- přidej Hive metastore, udělej z toho tabulku, soubory rozděl do partitions a napočítej statistiky
- spark dobře neumí využít hodně paměti pro jeden proces, rozděl úlohu na tisíce executorů, každému stačí málo paměti a využij škálování do šířky, v tomhle spark exceluje proti MR

Test jsi si napsal už s nějakým předpokladem a jen jsi prokázal, že spark funguje obdobně jako MR pro čtení všeho z disku.

MR v praxi selhává ve prospěch sparku právě z důvodu, že nemáš nikdy vše ideální. Úlohy jsou složité, data mají vysokou granualitu, potřebuješ filtrovat, na clusteru máš nemalou zátěž atd.

Při nabídkách řešení nad hadoopem vždy děláme výkonnostní testy podle plánovaných úloh a jedná se o reálná měření, nedělají to tak ale všichni. Spark není vždy tou správnou volbou a opět se rozhoduji podle potřeb, dnes jsou již na výběr i další nástroje.
- Zobrazit celé vlákno

Vilém Řezníček

Poslední názory

Témata

Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od Uncaught ReferenceError: - tohle je již pokročilé téma nad úroveň toho,...

Vilém Řezníček

Poslední názory

Témata

Dále u nás najdete

Lékaři chtějí po lidech pokutu, když objednaný pacient nedorazí

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Neplaťte si IT kurzy sami, využijte dotace od EU

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Experti zpochybnili pilíř, podle kterého se hodnotí zranitelnosti

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Češi vyslali svařovacího robota do vesmíru

Mykoplazmata řádí, jak lékaři čekali. Před Vánoci přibude chřipky

Vyšetření krvácení do stolice jako prevence rakoviny nestačí

OpenAI zavádí do ChatGPT „Santa Mode“. Co říká na Ježíška?

OSA chce 90 Kč z každého prodaného chytrého telefonu

Deset let od první transplantace střeva: V IKEM se připravují na děti

Ivanti dává hattrick třemi kritickými zranitelnostmi

OSA chce vybírat poplatky z dovezených telefonů

Operátoři testují nástroj proti podvrženým mobilním číslům

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Dění v Rumunsku testuje vztah Evropy k online platformám

Díky aplikaci placené pojišťovnou se povedlo objevit devět melanomů

Nové HDMI 2.2 už je za rohem