Názor ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od ViR - Díky za komentář a link. Samotný dokument jsem...

  • 10. 2. 2020 17:55

    ViR

    Díky za komentář a link. Samotný dokument jsem neviděl, ale ty výsledky srovnání jsem už viděl publikované (bez kontextu toho paperu to publikoval asi ještě někdo jiný). Až na vyjímky, ani tam ale výsledky rozhodně neukazují, že je Spark tak rychlý, jak se obecně tvrdí. Když jsem dělal své experimenty, chtěl jsem hlavně vidět tu problematiku odděleně. Tzn. jak jedou úlohy které čistě závisí na práci s diskem (bez možnosti vykonat operace pouze v RAM), sort(), join() apod. Je potěšující, že v dokumenty uvedené výsledky spíš výsledky tohoto experimentu potvrzují, než vyvraceji :).

    PS: Sorry pokud ten popis experimentů působí jako "marketingové kecy". Záměrem bylo zmínit relevantní informaci, kde jsem experimenty dělal a na jakém konkretním HW. Nic tendenčně ve prospěch "Ama....u". Z toho co bylo dostupné mi vybraná služba pro experimenty byla nejpřístupnější.