Jedním z hlavních rozdílů SQL databází vůči jakýmkoliv jiným databázím je existence planneru (případně optimalizujícího planneru). SQL dotaz definuje výsledek – nikoliv způsob, jak se k žádanému výsledku dostat. Úkolem plánovače dotazů je převod logických operací např. čtení tabulky s filtrem na fyzické operace. V tomto případě na sekvenční čtení nebo čtení indexem.

První optimalizátory byly primitivní, postavené nad jednoduchými heuristikami typu – vždy použij primární klíč, malou tabulku čti přímo, u velkých tabulek používej indexy, tabulky spojuj v pořadí podle velikosti tabulek, atd atd. Těmto tzv rule based optimalizátorům se často muselo ručně pomoci, případně programátoři věděli, jak mají psát dotazy. Rule based optimalizace nebyla moc efektivní, ale byla relativně stabilní a uchopitelná pro běžné programátory.

Další generací optimalizátorů byly tzv cost based optimalizátory, které již pracovaly se statistikami popisujícími obsah tabulek. Prakticky všechny SQL databáze dnes používají tento typ optimalizace. Ačkoliv tyto optimalizátory potřebují hinty v mnohem menší míře a poměrně dobře zvládají velký rozsah moderního SQL jazyka, tak stejně se občas narazí na větší nebo menší problémy.

Důvodem jsou zejména

špatné odhady výsledku – zejména z důvodu korelace hodnot mezi sloupci nebo neaktuálních statistik (ve větší míře na Oracle než na Postgresu (ale i na Postgresu – např. proces autovacuum nevolá ANALYZE na dočasných tabulkách). chybějící statistiky – pro výrazy neexistují statistiky, odhaduje se procentem zatím se nepoužívají mezi tabulkové statistiky – předpokládá se, že tabulky se mezi sebou mapují rovnoměrně a úplně, což nebývá pravda. použití neoptimálních plánů z cache plánů (Oracle) nebo předpřipravených dotazů (Postgres). Jedná se o poměrně komplikovaný problém opakovaného používání plánů vůči různým vektorům parametrů.

V posledních 20 letech je snaha problémy s optimalizací dotazů nějakým způsobem redukovat.



a) použitím hrubé síly v případě sloupcových databází – planner u těchto databází je relativně hloupý (stabilní), ale přístup k datům (případně agregace) je velmi rychlá. Vyšší rychlosti je možné dosáhnout distribucí výpočtu.



b) implementací adaptivních algoritmů.



b.1) Pomocí adaptivních algoritmů (případně algoritmů umělé inteligence (učením)) je možné postupně zpřesňovat odhady a tím vlastně řešit jeden problémů optimalizace.



b.2) Adaptivní algoritmy je možné implementovat i do executoru – např. čtení, které po dosažení určitého počtu řádek přechází z index scanu na seq scan. Join který začína jako nested loop a umí přejít na hash join, případně merge join. Další strategií je zahrnutí citlivosti na chybné odhady do optimalizace, a místo nejlepšího plánu, který je optimálním, pouze pokud se povede odhad, tak se hledá plán, který je dostatečně dobrý i při špatných odhadech.



Ačkoliv výzkum se často provádí nad open source databázemi, do upstreamu se zatím, pokud vím, nedostalo téměř nic. I když to vlastně není tak úplně pravda – Postgres má nyní více sloupcové statistiky a v dohledné době možná bude mít i statistiky nad výrazy. Executor bude mít adaptivní hash agregaci. V této oblasti je dost prostoru pro zlepšení i pro kreativitu.