Jak na unifikační gramatiku

28. 2. 2012 9:50 (aktualizováno) zboj

Unifikační gramatiky jsou skupinou (většinou) bezkontextových gramatik rozšířených o datové struktury (typicky struktury rysů), nad nimiž je definována operace unifikace. Jejich důležitou vlastností je, že byť obsahují pouze bezkontextová pravidla (typu X→α), jejich formální síla je větší než u běžných bezkontextových gramatik. Jinými slovy, generují i jazyky, které nejsou bezkontextové (to ovšem nutně neznamená, že generují všechny kontextové jazyky).

Unifikačních gramatik je mnoho, zde se zaměřím na formalismus nazvaný Lexical Functional Grammar (LFG). LFG byla navržena jako formální prostředek pro zpracování přirozeného jazyka, jakmile se ukázalo, že Chomského gramatiky nejsou pro tuto úlohu ideální. Zajímavou vlastností definice LFG je, že celý formální aparát je paradoxně definován bez operace unifikace (lze ale ukázat, že způsob, jakým funguje, je ekvivalentní unifikaci, což je také nejčastější způsob, jak LFG implementovat). I když není LFG vždy lingvisticky adekvátní, výhody jejího formálně precizního návrhu převažují.

Základní vlastností těchto gramatik je, že narozdíl od programovacích jazyků nejsou jednoznačné (pro vstupní řetězec může existovat více složkových syntaktických stromů). To je dáno víceznačností jazyků na úrovni slovní zásoby (kolej jako kus železa vs. ubytovací zařízení), tvarosloví (ženu jako sloveso vs. 4. pád podstatného jména žena, což je mimochodem přechodník, který ale většina Čechů neumí používat), skladby (Time flies like an arrow, kde slovesem je buď flies nebo like; oblíbeným příkladem v češtině je věta Ženu holí stroj) i významu (sémantické roviny). Z tohoto důvodu se také používají úplně jiné algoritmy než pro parsing programovacích jazyků.

LFG se, zjednodušeně řečeno, skládá z lexikonu (morfolexikálních položek) a vlastní gramatiky (pravidla s unifikačními anotacemi). Architektura LFG je tedy modulární, což je pro implementaci výhodou (princip „rozděl a panuj“ při vývoji programů). Precizní formální popis přínáší několik výhod, kromě snadné implementovatelnosti například konkretizaci pojmů jako autosémantický a synsématický (angl. content word vs. function word). Modulárnost také usnadňuje „portování“ gramatik z jednoho jazyka na jiný, např. pro češtinu a slovenštinu jsou pravidla a jejich anotace stoprocentně shodná (protože neexistují rozdíly ve skladbě), v rámci LFG gramatiky se oba jazyky liší pouze morfolexikálně (jediným rozdílným modulem je lexikon).

Pro seznámení se základní architekturou LFG a jejím historickým pozadím je nejlepší kniha The Mental Representation of Grammatical Relations (ed. Joan Bresnan, přinejmenším stěžejní článek je volně ke stažení), z novějších publikací pak sborníky LFG Conference (rovněž volně ke stažení). Jako velmi jednoduchý příklad uveďme pravidlo pro jmennou frázi skládající se z číslovky, přídavného jména a podstatného jména, ve kterém se bere ohled na shodu v rodě, pádě a čísle.

NP (Num) A* N
(↑NUM)=↓ (↑ADJ)∋↓

(↑GENDER)=(↓GENDER)

(↑NUMBER)=(↓NUMBER)

(↑CASE)=(↓CASE)

↑=↓

Jak je vidět, číslovka je nepovinná a přívlastků může být ve jmenné frázi libovolné množství (nebo žádný, což zajistí Kleenova *). Podstatné jméno je hlavou pravidla (struktura pro NP se unifikuje se strukturou pro N: ↑=↓) a přídavné jméno se musí s podstatným jménem shodovat v řadě morfologických vlastností (jmennou frází je tedy podle tohoto pravidla např. velký dům a velkého domu, ale ne velký domu nebo velkého dům).

Jazyky se obecně dělí na endocentrické a lexocentrické, i když toto dělení není striktní a jde spíše o stupnici „lexocentricity“. Čeština je spíše lexocentrická, neboť má bohaté tvarosloví a značně volný pořádek slov. Typickým zástupcem endocentrických jazyků je angličina s pevným pořádkem slov a velmi omezeným tvaroslovím (nebo čínština, jež flexi nemá vůbec).

Sdílet