Spekuloval jsem před časem o výhodách nasazení HADOOP řešení jako náhradě za několik existujících a velmi pomalých ETL úloh. Výsledky experimentu je možné najít zde - v minulém článku. Jestli otázkou tehdy bylo, zda tehdejší úlohy je vhodné nahradit řešením HADOOP/MR nebo nikoliv, nyní experimenty už vedly k ověřování jak by dále zpracování urychlil SPARK. Tzn…
Pro několik experimentů jsem potřeboval dostatečně rozsáhlý soubor českých slov pro vyjádření sentimentu mluvčího v psaném textu. Na internetu se lze dopátrat podobných databází, nevyhovovaly ale svým poměrně malým rozsahem, nebo kvalitou klasifikace jednotlivých slov. Po několika pokusech se dostatečně rozsáhlou databázi podařilo sestavit…
Otázkou experimentu, získat představu o rychlosti zpracování dat s využitím technologie Hadoop a srovnání s „klasickým způsobem”, jsem se zabýval už velmi dlouho. Vše začalo, když jsem se poprvé s Hadoopem seznámil a viděl výrazně delší dobu zpracovávání dat v nesprospěch Hadoopa. V době publikace článku už od té doby uplynuly více jak čtyři roky. Za tu dobu se mi nepodařilo narazit na nějaké srovnání, nebo se setkat s někým, kdo měl z této oblasti nějakou konkrétní zkušenost…