Úvod do počítačové lingvistiky

[Edit]

Pokud naleznete nějakou chybu, můžete jí opravit pomocí tlačítka edit.

Počítačová lingvistika

Definice

Obor, zabývající se formálním popisem vlastností přirozených jazyků a jejich automatickým zpracováním (vytváření automatických systému, modelujících užívání přirozeného jazyka).

Podobory

Funkce přirozených jazyků

Zásady komunikace v přirozeném jazyce


Morfologie

Definice

Morfologie studuje vztahy mezi jednotlivými částmi slov, vnitřní struktury slov. Zabývá se tvořením tvarů slov a jejich významem, dále i tvořením nových slov.

S morfologií se pojí pojmy:

Přístupy ke zpracování morfologie

Two-Level Morphology

Česká morfologie

Činnosti využívající morfologii

Kontrola překlepů jako aplikace morfologie

2 základní metody:

Možná vylepšení

Komunikace s uživatelem

Hranice přijatelnosti

Systém ASIMUT

2 základní moduly

Problémy

Další pojmy

Systém MOZAIC


Syntax

Definice

Syntax (skladba) se zabývá vztahy mezi slovy ve větě, tvořením větných konstrukcí, slovosledem.

syntax tree

složkový tree

Neprojektivní konstrukce

neprojektivní konstrukce

Transformační gramatika

VP{VintrsgAdVVtrsgNP}/NPsgVP \rightarrow \quad \left\{\begin{array}{cc} V_{intr}^{sg} & AdV \\ V_{tr}^{sg} & NP \end{array}\right\} \, / \, NP^{sg}

Transformační komponenta

Fonologická komponenta

Formalismus pro popis gramatik

[PRED“DAVID"NUMSG][PRED“spaˊt <SUBJ>"TENSEPASTSUBJ[PRED“DAVID"NUMSG]]\begin{bmatrix} \text{PRED} && \text{``DAVID"} \\ \text{NUM} && \text{SG} \end{bmatrix} \quad \begin{bmatrix} \text{PRED} && \text{``spát <SUBJ>"} \\ \text{TENSE} && \text{PAST} \\ \text{SUBJ} && \begin{bmatrix} \text{PRED} && \text{``DAVID"} \\ \text{NUM} && \text{SG} \end{bmatrix} \\ \end{bmatrix}

Kategoriální gramatiky

X/YYXX / Y Y \rightarrow X YX\YXY X \backslash Y \rightarrow X

Příklad kombinační gramatiky

Unifikační gramatiky

Popis vlastností objektů

[ graphematic_form : books POS : noun gender : neutral number : plural]\left[\begin{array}{l} \text{ graphematic\_form : books} \\ \text{ POS : noun} \\ \text{ gender : neutral} \\ \text{ number : plural} \\ \end{array}\right]

Unifikace

[POS : verbperson : thirdnumber : plural][gender : masc animatenumber: plural]=[POS : verbperson : thirdgender : masc animatenumber : plural]\left[\begin{array}{l} \text{POS : verb} \\ \text{person : third} \\ \text{number : plural} \end{array}\right] \cup \left[\begin{array}{l} \text{gender : masc animate} \\ \text{number: plural} \\ \end{array}\right] = \left[\begin{array}{l} \text{POS : verb} \\ \text{person : third} \\ \text{gender : masc animate} \\ \text{number : plural} \end{array}\right]

Sestavy rysů

[ subject :[ person : 2 gender : fem ] predicate :[ person :2 gender : fem ]][ subject :1[ person :2 gender : fem ] predicate: 1]\left[\begin{array}{l} \text { subject }:\left[\begin{array}{l} \text { person : } 2 \\ \text { gender : fem } \end{array}\right] \\ \text { predicate }:\left[\begin{array}{l} \text { person }: 2 \\ \text { gender }: \text { fem } \end{array}\right] \end{array}\right] \quad\left[\begin{array}{l} \text { subject }:|1|\left[\begin{array}{l} \text { person }: 2 \\ \text { gender : fem } \end{array}\right] \\ \text { predicate: }|1| \end{array}\right] [ case : acc ][ mode : ind ]=[ case : acc  mode : ind ][\text { case : acc }] \cup[\text { mode }: \text { ind }]=\left[\begin{array}{l} \text { case }: \text { acc } \\ \text { mode }: \text { ind } \end{array}\right]

Typované sestavy rysů

[ verb  person : 2nd  number : singular  mode : imperative ]\left[\begin{array}{l} \text { verb } \\ \text { person : 2nd } \\ \text { number : singular } \\ \text { mode : imperative } \end{array}\right]

tsr

[wordPHON’walks’SYNSEM[synsemCAT[categoryHEADverbVALENCE[SUBJ[synsemCAT  HEAD nounCONT 1[refindexPER3rdNUMsing]]COMP]]CONT[contentWALKER 1]]]\left[\kern-0.5em\begin{array}{ll} word & \\ \text{PHON} & \langle \text{'walks'}\rangle \\ \text{SYNSEM} & \left[\kern-0.5em\begin{array}{ll} synsem & \\ \text{CAT} & \left[\kern-0.5em\begin{array}{ll} category & \\ \text{HEAD} & verb \\ \text{VALENCE} & \left[\kern-0.5em\begin{array}{ll} \text{SUBJ} & \left\langle \left[\kern-0.5em\begin{array}{l} synsem \\ \text{CAT } \vert \text{ HEAD } noun \\ \text{CONT } \fbox{1} \left[\kern-0.5em\begin{array}{ll} ref-index & \\ \text{PER} & 3rd \\ \text{NUM} & sing \\ \end{array}\kern-0.5em\right] \end{array}\kern-0.5em\right] \right\rangle \\ \text{COMP} & \langle\rangle \end{array}\kern-0.5em\right] \\ \end{array}\kern-0.5em\right] \\ \text{CONT} & \left[\kern-0.5em\begin{array}{l} content \\ \text{WALKER } \fbox{1} \\ \end{array}\right] \end{array}\kern-0.5em\right] \end{array}\kern-0.5em\right]

Functional Unification Grammar (FUG)

Generalized Phrase Structure Grammar (GPSG)

Nástroje pro syntaktickou analýzu

Augmented Transition Networks (Woods, 1970)

SNPVPNPDetNPVPV[NP]{S \rightarrow NP VP} \\ {NP \rightarrow Det NP} \\ {VP \rightarrow V [NP]}

The girl saw a boy.

Q-systémy

S(NP,VP(V,NP))S(NP,VP(V,NP))

může být popsáno jako:

A(U)A^{*}(U^{*})

nebo

S(NP,L)S(NP, L^{*})

či

MM^{*}

^* signalizuje, že se jedná o proměnnou

vstupní graf:

vstupní graf

Adj+NNP(Adj,N)V+NP(U)VP(V,NP(U))NP(U)+VP(V)S(NP(U),VP(V))\begin{align} Adj+N &\Rightarrow NP(Adj,N) \\ V+NP(U^{*}) &\Rightarrow VP(V, NP(U^{*})) \\ NP(U^{*})+VP(V^{*}) &\Rightarrow S(NP(U^{*}),VP(V^{*})) \end{align}

Pravidla

Funkční generativní popis (Sgall, 1967)

Teorie valence

další dělení

Dialogový test

Moji přátelé přijeli. Moji přátelé odjeli.
Kam? Nevím
Odkud? Nevím
Odkud? Nevím
Proč? Nevím

Kontrola gramatické správnosti

Jak kontrolovat?

RFODG

LanGR


Korpusová lingvistika

Definice

Korpus je rozsáhlý soubor textů (v digitální podobě, el. databáze) v daném jazyce, většinou anotovaný (označkovaný) na základě přechozí morfologické a někdy i syntaktické analýzy. Je to cenný soubor dat, ale někdy se chybně považuje za reprezentativní vzorek či rovnou celý jazyk.

Charakteristika moderních korpusů

Brown Corpus of Standard American English

Penn Treebank

Další anglické korpusy

Český národní korpus (CNC)

Pražský závislostní korpus (Prague Dependency Treebank)

Anotační a vyhledávací nástroje


Pravděpodobnostní a statistické metody

Základní vzorce

P(A,B)=P(A)P(B)  (A, B nezaˊvisleˊ)P(AB)=P(BA)P(A)P(B)  (Bayesova veˇta)P(A,B)=P(AB)P(B)=P(B,A)P(A,B,C)=P(AB,C)P(BC)P(C)P(AB)=P(A)  (A, B nezaˊvisleˊ)P(A,B)=P(A)P(B)  (A, B nezaˊvisleˊ)\begin{align} P(A, B)=P(A) P(B) &\quad\; \text{(A, B nezávislé)} \\ P(A \mid B)=\frac{P(B \mid A) P(A)}{P(B)} &\quad\;\text{(Bayesova věta)} \\ P(A, B)=P(A \mid B) P(B)=P(B, A) & \\ P(A, B, C)=P(A \mid B, C) P(B \mid C) P(C) & \\ P(A \mid B)=P(A) &\quad\; \text{(A, B nezávislé)} \\ P(A, B)=P(A)P(B) &\quad\; \text{(A, B nezávislé)} \\ \end{align}

Modelování jazyka

Definice

Rozpoznávání je technika, která se snaží předpovídat, co bude následující slovo na základě předchozího kontextu (historie).

Věta

Nechť jsme před slovem ww. Označme hh dosavadní historii (text před slovem ww). Pak nás zajímá P(wh)P(w \mid h). Což z Bayesovy věty spočítáme jako P(wh)=P(hw)P(w)/P(h)P(w \mid h)={P(h \mid w)^{*} P(w) / P(h)}. Díky větě o úplné pravděpodobnosti pak můžeme počítat pravděpodobnost celé věty WW jako:

P(W)=P(wii=1n).P(wnwii=1n1).P(wn1wii=1n2).P(wn2wii=1n3).P(w2w1).P(w1)\begin{align} &P(W) = \\ &P\left(\left\langle w_{i}\right\rangle_{i=1 \ldots n}\right). \\ &P\left(w_{n} \mid \left\langle w_{i} \right\rangle_{i=1 \ldots n-1}\right). \\ &P\left(w_{n-1} \mid \left\langle w_{i} \right\rangle_{i=1 \ldots n-2}\right). \\ &P\left(w_{n-2} \mid \left\langle w_{i} \right\rangle_{i=1 \ldots n-3}\right). \\ \ldots \\ &P\left(w_{2} \mid w_{1}\right). \\ &P\left(w_{1}\right) \end{align}

Definice

Trigramový model

p(W)=p(w3w2w1)p(w2w1)p(w1)p(W)=p(w_{3} \mid w_{2} w_{1}) p(w_{2} \mid w_{1}) p(w_{1})

Vyhlazovaní

Statistický překlad

Fázový překlad

Metoda zašuměného kanálu

Evaluace systémů automatického překladu

BLEU

BLEU=BP.(p1p2p3p4)1/4\text{BLEU} =BP .\left(p_{1} p_{2} p_{3} p_{4}\right)^{1 / 4}

Sémantika

Sémantika přirozeného jazyka

Vyplývání

Tučňáci jsou ptáci. \Rightarrow Tučňáci mají křídla a létají.

Kare prodal auto sousedovi. \Rightarrow Karel měl auto, už ho nemá, soused je od něj koupil a ted’ ho má.

Fregeho princip kompozicionality

Lexikální sémantika

Význam slov

Toto je křída.

Ontologie

Popis významu slov

WordNet

Z příkladu mi přijde, že to vypadá jako takový výkladový slovník - k danému slovu to vypisuje určité jeho významy. Pro dané významy to vypíše slovní popis, příklad a seznam synonym. Co z toho dělá sémantickou sit’ je asi to, že to tvoří vnitřní strukturu (ostatní pojmy fungují jako odkazy), kterou lze procházet a jsou tam zaznamenány i různé relace nadřazenosti/ podřazenosti/ býti částí apod.

EuroWordNet

Aplikace WordNetu

Problémy sémantických sítí

Reprezentace významu věty

Alík skáče. x:x=Alıˊkjump(Alıˊk)\exists x: x=Alík \land jump(Alík)
Všichni psi skáčou. x:dog(x)jump(x)\forall x: dog(x) \rightarrow jump(x)
Každý student podepsal petici. x:student(x)y:petition(y)sign(x,y)\forall x: student(x) \rightarrow \exists y: petition(y) \land sign(x, y)
Petici podepsal každý student. y:petition(y)xstudent(x)sign(x,y)\exists y: petition(y) \land \forall x \rightarrow student(x) \land sign(x, y)

Cena Big Macu je 20 Kč. vs Myslím, že cena Big Macu je 20 Kč.

Vlevo můžeme nahradit výraz “Cena Big Macu” jeho hodnotou 90 Kč, dostaneme FALSE, ale vpravo nelze nahrazení provést (není to ekvivalentní tvrzení).

Intenze výrazu

Extenze výrazu
Základní přístupy k sémantice

TIL (Transparentní intenzionální logika)

τ\tau, ω\omega - reference k danému času a světu Λτ\Lambda \tau \ldots - možný čas Λω\Lambda \omega \ldots - možný svět

Rozpoznávání vztahů v textu

typy anaforických vztahů:

důležitost pro aplikace:

Zásoba sdílených znalostí

Skryté markovské modely

3 úkoly

Dekódování