Díky za článek, jedinou podobnou práci (bez těch marketingových keců) jsem našel zde, je sice staršího data, ale stále určitě relevantní k vašemu článku: 2015_LiuLu_MS.pdf. Jsou tam pěkně udělané grafy zátěže memory a cpu, tam je pak pěkně vidět, kde je Spark pomalejší a kde rychlejší (viz. rozdíl zpracování Hadoop "na disku" a Spark "v paměti").
Díky za komentář a link. Samotný dokument jsem neviděl, ale ty výsledky srovnání jsem už viděl publikované (bez kontextu toho paperu to publikoval asi ještě někdo jiný). Až na vyjímky, ani tam ale výsledky rozhodně neukazují, že je Spark tak rychlý, jak se obecně tvrdí. Když jsem dělal své experimenty, chtěl jsem hlavně vidět tu problematiku odděleně. Tzn. jak jedou úlohy které čistě závisí na práci s diskem (bez možnosti vykonat operace pouze v RAM), sort(), join() apod. Je potěšující, že v dokumenty uvedené výsledky spíš výsledky tohoto experimentu potvrzují, než vyvraceji :).
PS: Sorry pokud ten popis experimentů působí jako "marketingové kecy". Záměrem bylo zmínit relevantní informaci, kde jsem experimenty dělal a na jakém konkretním HW. Nic tendenčně ve prospěch "Ama....u". Z toho co bylo dostupné mi vybraná služba pro experimenty byla nejpřístupnější.