Tohle je velice nešťastný článek. Souhlasil bych s autorem snad jen v tom, že pro něj Hadoop ani Spark nebudou tím, co hledá. A pak s tím, že opravdu existují úlohy, kde to má smysl a objem vstupu a složitost transformace a počítání jsou takové, že na jednom stroji je to nepraktické.
Dopručil bych ke čtení např. Anatomy of flawed microbenchmark https://www.ibm.com/developerworks/library/j-jtp02225/index.html a pak zamyšlení jestli má smysl měřit počítání Pí pomocí Monte Carlo nebo zpracovávat 200GB dat a vyvozovat závěry o Hadoopu či Sparku. K tomu druhému snad také https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html z roku 2013. Dnes jsme zase jinde. Měřit na AWS a zahazovat výsledky, které nezapadají do (pochybně) zvolené koncepce měření.
Neodhadnu nyní co tím míníš, když píšeš "že pro něj Hadoop ani Spark nebudou tím, co hledá". Domnívám se, že jsi to jen četl zrychleně a spoustu podstatných informací jsi přehlédnul. Nehledal jsem řešení, srovnával jsem, hledal jsem dál možnosti jak by už existující H/MR řešení Spark dále urychlil.
Opodstatnění zahrnutí úlohy odhadu čísla PI do experimentu, objem dat použitých pro test, stejně jako zmínka o zahazování výsledků, AWS,...to vše by bylo možné opět vysvětlovat, doporučuji ale raději pozorně vše ještě jednou přečíst..