Hlavní navigace

Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Díky za komentář a link. Samotný dokument jsem...

  • 10. 2. 2020 17:55

    ViR

    Díky za komentář a link. Samotný dokument jsem neviděl, ale ty výsledky srovnání jsem už viděl publikované (bez kontextu toho paperu to publikoval asi ještě někdo jiný). Až na vyjímky, ani tam výsledky rozhodně neukazují, že je Spark tak rychlý, jak se obecně tvrdí. Když jsem dělal své experimenty, chtěl jsem hlavně vidět tu problematiku odděleně. Tzn. jak jedou úlohy které čistě závisí na práci s diskem (bez možnosti vykonat operace pouze v RAM), sort(), join() apod. Co je ale potěšující, a to vidím teď v tom článku, jsou výsledky srovníní úloh s implementací K-MEANS a Naive Bayes. Na Hadoop bych to nikdy v reálu nenasadil, to srovnání ale přesně sedí s tím, co bych od toho teď na základě svých výsledků očekával. Opět ale, pokud půjdeme do detailu, celé to spočívá v analogicky pouze a jen k soustředění se k tomu řádku kódu, který jsem uvedl :-) Díky za odkaz!!!!!

    PS: Sorry pokud ten popis experimentů působí jako "marketingové kecy" :). Záměrem bylo zmínit relevantní informaci, kde jsem experimenty dělal a na jakém konkretním HW. Nic tendenčně ve prospěch "Ama....u". Z toho co bylo dostupné mi vybraná služba pro experimenty byla nejpřístupnější.