SQL a rekurze

7. 5. 2014 13:30 zboj

Pokročilé techniky

Pořád dokola mě překvapuje, jak málo programátorů zná množinové operace v SQL. Možná ještě méně jich zná “common table expressions”. A pokud už znají obojí, nevědí, jak vše použít s rekurzí. A jen malá hrstka ví, jak to vše funguje uvnitř. Proto tento malý přehled (od jednoduššího ke složitějšímu).

Množinové operace

Základy teorie množin zná asi každý. Ostatně SQL nenabízí o mnoho více než průnik, sjednocení a rozdíl. Jsou popsány v každém úvodu do SQL, ale uvedu zde příklad, protože bude potřeba dále. Mějme tedy tabulku edges se sloupci a a b, jež reprezentuje hrany nějakého orientovaného grafu. Získat SELECTem hrany začínající ve vrcholu 1 je triviální. Jak ale získat ty, které ve vrcholu 1 nezačínají? Zde pomůže rozdíl množin:

SELECT a, b FROM edges
EXCEPT
SELECT a, b FROM edges WHERE a = 1

Je jasné, že obě tabulky musí mít stejnou signaturu (počet sloupců a jejich typ). Jak říkám, je to triviální příklad, ale poslouží jako výchozí bod pro složitější aspekty dotazů do relačních databází.

Common table expressions (CTEs) a rekurze

CTEs jsou náhledy (views) existující pouze po dobu vyhodnocování dotazu. Pokud se nevyužije rekurze (zavedená v SQL3), jde jen o syntaktický cukr. S rekurzí jde ale o mocný nástroj. Pokud chceme získat všechny cesty v grafu (tj. tranzitivní uzávěr), použijeme právě CTE:

WITH paths AS (
SELECT a, b FROM edges
UNION
SELECT e.a, p.b FROM edges e, paths p WHERE e.b = p.a
) SELECT a, b FROM paths

První SELECT znamená, že hrana z a do b je cesta z a do b (to je dno rekurze). Druhý SELECT říká, že pokud máme hranu z a do b a cestu z b do c, máme také cestu z a do c. Sjednocením množin (UNION odstraní případné duplicity) získáme konečný výsledek dotazu.

Vyhodnocování rekurzívních dotazů

Nyní se konečně dostáváme k něčemu zajímavému. Jak se rekurzívní dotaz vyhodnucuje? Nejjednodušší by bylo vyhodnotit dotaz prostou rekurzí (backtrackingem). Pro názornost uvedu odpovídající pravidla v Prologu:

path(X, Y) :- edge(X, Y).
path(X, Z) :- edge(X, Y), path(Y, Z).

To je z pohledu logiky prvního řádu naprosto správně, ovšem pokud graf obsahuje cyklus, výpočet se zacyklí. A protože žádná databáze se na uvedeném příkladu nezacyklí, je zřejmé, že použitý algoritmus je poněkud (v některých databázích značně) složitější.

Jen o trochu komplikovanější je vyhodnocení dotazu výpočtem pevného bodu (tak funguje například sqlite). Začne se od nerekurzívní části dotazu (první argument operace UNION) a postupně se v cyklech přidávají další výsledky podle rekurzívní definice. Duplicity se odstraňují a pokud již není do přidat, je výsledek dotazu kompletní (z pohledu logiky se jedná o stabilní model uvažovaných relací a pravidel).

Ani tento algoritmus nelze bohužel použít vždy, nefungují s ním dotazy s operací EXCEPT. V nejobecnějším případě se používá algoritmus založený na principu “producer/consumer” (některé publikace uvádějí “server/requester”). Každý (rekurzivní) poddotaz se vyhodnocuje pouze jednou a mezivýsledky se ukládají do pomocných tabulek. Pokud nějaký poddotaz obsahuje rekurzívní “podpoddotaz”, zapíše se k němu jako “consumer”, resp. “requester”. Odpovídající pomocná tabulka následně funguje jako “producer” a posílá zprávy a nových mezivýsledcích. Někdy se tento postup nazývá “delayed evaluation”, protože vyhodnocování poddotazů se pozastavuje (v angličtině se poddotaz nazývá “suspended”) a pokračuje se později, jakmile je k dispozici další mezivýsledek. Implementace je značně komplikovaná, ale uvedený algoritmus zaručuje, že se výpočet na žádném dotaze nezacyklí (v obecnější verzi pro logické programování s negací se nazacyklí na žádném programu bez funkčních symbolů, jenž je “non-floundering”).

Pro zajímavost uveďme, že z pohledu výpočetní složitosti (a ta je u velkých databází extrémně důležitá) je řádově výhodnější použít levou rekurzi. V Prologu tedy něco, na čemž se většina implementací zacyklí:

path(X, Z) :- path(X, Y), edge(Y, Z).
path(X, Y) :- edge(X, Y).

Související články na blogu Zmatení (programovacích) jazyků
- K čemu je teorie (důkazů) 23. 6. 2014 7:57
- Typické referenční cykly 15. 6. 2014 14:53
- Úskalí JNA 11. 4. 2014 8:54
- Proměnlivé šablony a RPC v C++ 2. 4. 2014 14:33
- Java a nativní paměť 30. 3. 2014 22:37
- Obtížnost hledání min 25. 3. 2014 14:36

Přidat názor

9. 5. 2014 11:52

sachy (neregistrovaný)

jaka je u prvniho prikladu vyhoda oproti klasickemu
"SELECT a,b FROM edges WHERE a != 1;"?

Nenapada me priklad ve kterem bych nemohl podminku vyjadrit WHEREm primo. Mozna jedine u klauzuli typu UPDATE, ktere MySQL neumi vyhodnotit s vnorenym dotazem nad tou samou tabulkou "UPDATE ... WHERE foo = (SELECT ... LIMIT 1)".
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 5. 2014 14:46

Karel (neregistrovaný)

[1] To jste se nedostal před první odstavec. Tam je ten příklad skutečně špatný :-)

A tady zjevně nešlo o where podmínku, ale o rekurzi. Jednodušší úloha: máte tabulku "directories", kde je sloupec s názvem adresáře (primární klíč) a názvem nadřazeného adresáře (shodný s názvem adresáře, pokud je to kořen). A pak tabulku "files", kde je název souboru (primární klíč) a název adresáře, kde je soubor uložen. A úloha zní vypsat seznam souborů a ke každému seznam adresářů z cesty k němu. Případně vyšší dívčí - seznam souborů a ke každému textový údaj s celou cestou k souboru. A vypořádat se pak i s chybou, když se adresáře zacyklí (A / B / C / D / B).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 5. 2014 15:15

David Adamczyk (neregistrovaný)

[1] where neni mnozinova operace.
Obdobny priklad by byl s tabulkami:
tabulka1 tabulka2
-------- --------
A A
B B
C
D

Vypsat ty, ktere nemaji zaznam v tabulce1.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 5. 2014 15:16

David Adamczyk (neregistrovaný)

Hmm, netusil jsem ze se mi po ulozeni komentare ty tabulky rozbiji. Tak tedy Tabulka1{A,B} Tabulka2[A,B,C,D}
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 5. 2014 15:54

Karel (neregistrovaný)

[3] Jenže ten příklad byl nad tabulkou jedinou. V tom je špatný. Kdyby to byly tabulky 2, tak to bude jasnější. Ale i pak řada SQL programátorů použije WHERE (a,b) not in (SELECT...)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
9. 5. 2014 19:32

MK (neregistrovaný)

[1] Ten priklad s WHERE nemusi dat vzdy shodne vysledky. EXCEPT udela jeste DISTINCT, to same plati pro NOT IN zmineny v [5].
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 5. 2014 8:37

podlesh (neregistrovaný)

Malé povědomí o CTE si vysvětluji tím, že až donedávna existovaly jen v DB2 a ta se v našich končinách moc nevyskytuje. Odkdy je má Oracle? (btw o Postgresql vím)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 5. 2014 15:41

Ivan (neregistrovaný)

[7] Oracle to podporuje minimalne od verze 10g (viz query factoring). Tzn 11 let. Jojo leti to leti.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 5. 2014 18:07

strepty (neregistrovaný)

Dakujem za podnetny blog.
Nebolo by lepsie celu tabulku nacitat do pamete a naprogramovat rekurziu v programe? Nie som odbornik, ale zda sa mi ze tento dotaz prejde tebulku hran nie raz, ale viackrat podla poctu hran.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 5. 2014 21:13

Pavel (neregistrovaný)

[9] existuju ludia ktori oblubuju programovanie v databazach. Pre takych su taketo hratky.
Z praktickej skusenosti si myslim, ze len s namahou dosiahnete vykonovo lepsi vysledok naprogramovanim to v inom jazyku. (mozno je toto vynimka potvrdzujuca pravidlo)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
10. 5. 2014 23:06

zboj (neregistrovaný)

@9 Ono to tak v praxi často je. Nicméně vyhodnocení prostou rekurzí není většinou možné, proto se používají ty pevné body nebo nějaký ještě obecnější algoritmus, co se nezacyklí.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
11. 5. 2014 11:47

Pavel Stěhule (neregistrovaný)

[9] Pokud by šlo čistě o iteraci, tak program v C nad daty v paměti bude cca 20x rychlejší - a pokud by rekurzivní prohledávání dat byla primární úloha, tak existují vhodnější nástroje než je relační SQL databáze. Nicméně rekurzivní prohledávání dat může být jen jednou z mnoha úloh, které chcete s daty v databázi dělat - např. operacemi nad číselníky získat seznam idček a pak dál už pracujete klasicky relačně - nebo rekurzí získáte popisky, které přijoinujete k agregovaným hodnotám - a pak se může hodit, že SQL databáze rekurzi umí. I když je relační databáze pomalejší než specializovaný sw, pořád umí vracet (i s rekurzí) desítky tisíc řádků za vteřinu, což na hodně úloh bohatě stačí. Určitě nemá relační a nemůže relační databáze s CTE zastoupit specializované grafové databáze nebo algoritmy, které jedou čistě nad maticemi v paměti - primárním účelem relačních databází je management dat - a CTE je aby se některé věci dělali pohodlněji.

Pokud byste chtěl dělat rekurzi nad daty uloženými v databázi externě, tak pak musíte počítat s režií exportu dat mimo databázi - network, interproces communication
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 5. 2014 8:40

TomasJ (neregistrovaný)

[10] Programování v DB má význam například v okamžiku, kdy se vám mezivýsledky nevejdou do paměti a musíte mezivýsledky odkládat na disk. (BTW: Osobně jsem odpůrcem uložených procedur a triggerů jako standardního vývojového nástroje. Aplikační logika do DB dle mého názoru nepatří.)

CTE bez rekurze nemusí být jen syntaktický cukr. Jejich správné použití se může projevit na rychlosti výpočtu. Např:

with COMPLEX_QUERY as ( select ..... )
select ...
from COMPLEX_QUERY as A
join COMPLEX_QUERY as B on ....

Bez CTE většina databází vyhodnotí COMPLEX_QUERY 2x (bohužel).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
12. 5. 2014 8:44

zboj (neregistrovaný)

@TomasJ "Syntaktický cukr" znamená, že to jde zapsat bez CTE. Takže bez rekurze to syntaktický cukr je a implementace je irelevantní (aspoň u deklarativních jazyků, a to SQL je).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2014 15:54

Psíkus (neregistrovaný)

[13] BTW: Osobně jsem odpůrcem uložených procedur a triggerů jako standardního vývojového nástroje. Aplikační logika do DB dle mého názoru nepatří.

Takový Oracle Forms+Oracle PL/SQL..., ve Forms jenom logika formuláře, aplikační logika v packages v DB ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
17. 5. 2014 22:50

strepty (neregistrovaný)

Poznam to, riesenie cez Oracle forms bolo ponuknute zakaznikovi ako rozhranie, a ked sa to naucil pouzivat tak tam pridaval vypocty a na vypocitane hodnoty dalsie vypocty a tak asi 5 rokov. Potom bol DB server tak zatazeny ze niekedy jednoducho nieco nevypocital, bohuzial bolo nahodne co. Potom bolo treba zistit kde je diera v datach a dopocitat to.
Ale uvedomujem si ze to je ojedinely pripad, na jednej oracle konferencii sa prednasajuci spytal publika aby zodvihli ruku ludia co je ich server zatazeny nad 20% a zodvihol som ruku len ja.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
2. 6. 2014 15:26

Cohen (neregistrovaný)

[15] Triggery jistě, ačkoliv je to bez nich občas hodně velké zesložitění. Nicméně bez procedur si nedovedu představit rozumnou aplikaci, kde programátora zajímá integrita dat. Zvlášť v případě, že do databáze dělají zásahy aplikace od více dodavatelů.

Mimochodem, řeší článek nějakou konkrétní implementaci, nebo jde o obecné SQL? Protože to v něm není uvedeno. Řešit obecné SQL je dle mého názoru víceméně zbytečné (bohužel).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
4. 6. 2014 9:36

SB (neregistrovaný)

[17] Celý frk spočívá v tom, že vyjadřovací schopnosti vyšších jazyků (a jejich ladicích nástrojů) jsou někde úplně jinde než PL/SQL. Takže ono jde veškerou doménovou logiku nacpat do DB, ale prcačka je to neskutečná. Takže jestliže to jde, můžou cizí aplikace využívat ne rozhraní DB, ale rozhraní vyššího jazyku (když to zvládnou).
Druhým problémem je umístění dom. logiky do persistentní vrstvy, v případě, že ji potřebujete prohodit (např. za dokumentovou DB), můžete to všechno předělat.

Přidat názor

Sdílet

Související články na blogu Zmatení (programovacích) jazyků

K čemu je teorie (důkazů) 23. 6. 2014 7:57

Typické referenční cykly 15. 6. 2014 14:53

Úskalí JNA 11. 4. 2014 8:54

Proměnlivé šablony a RPC v C++ 2. 4. 2014 14:33

Java a nativní paměť 30. 3. 2014 22:37

Obtížnost hledání min 25. 3. 2014 14:36

zboj

Nejčtenější články autora

Poslední názory

Témata