Hlavní navigace

Vlákno názorů ke článku HADOOP versus SPARK: Srovnání výkonnosti pro různé ETL úlohy od Murphy - Díky za článek, jedinou podobnou práci (bez těch...

  • 10. 2. 2020 10:18

    Murphy

    Díky za článek, jedinou podobnou práci (bez těch marketingových keců) jsem našel zde, je sice staršího data, ale stále určitě relevantní k vašemu článku: 2015_LiuLu_MS­.pdf. Jsou tam pěkně udělané grafy zátěže memory a cpu, tam je pak pěkně vidět, kde je Spark pomalejší a kde rychlejší (viz. rozdíl zpracování Hadoop "na disku" a Spark "v paměti").

  • 10. 2. 2020 17:55

    ViR

    Díky za komentář a link. Samotný dokument jsem neviděl, ale ty výsledky srovnání jsem už viděl publikované (bez kontextu toho paperu to publikoval asi ještě někdo jiný). Až na vyjímky, ani tam výsledky rozhodně neukazují, že je Spark tak rychlý, jak se obecně tvrdí. Když jsem dělal své experimenty, chtěl jsem hlavně vidět tu problematiku odděleně. Tzn. jak jedou úlohy které čistě závisí na práci s diskem (bez možnosti vykonat operace pouze v RAM), sort(), join() apod. Co je ale potěšující, a to vidím teď v tom článku, jsou výsledky srovníní úloh s implementací K-MEANS a Naive Bayes. Na Hadoop bych to nikdy v reálu nenasadil, to srovnání ale přesně sedí s tím, co bych od toho teď na základě svých výsledků očekával. Opět ale, pokud půjdeme do detailu, celé to spočívá v analogicky pouze a jen k soustředění se k tomu řádku kódu, který jsem uvedl :-) Díky za odkaz!!!!!

    PS: Sorry pokud ten popis experimentů působí jako "marketingové kecy" :). Záměrem bylo zmínit relevantní informaci, kde jsem experimenty dělal a na jakém konkretním HW. Nic tendenčně ve prospěch "Ama....u". Z toho co bylo dostupné mi vybraná služba pro experimenty byla nejpřístupnější.