language/encoding

Český Analyzátor Jazyka - ČAJ

Drtivou část této stránky jsem sprostě ukradl od Honzy a jenom lehce upravil a doplnil svoji část.

Autoři:

Jde o pokus o komplexní analýzu českého jazyka - morfologickou, syntaktickou i sémantickou.

Morfologie

Uložení slov ve slovnících a přístup k nim. U ohebných slovních druhů rozdělení na slovní základ a zbytek slova. Ten závisí pouze na tom, k jakému vzoru dané slovo náleží. Ukládá se pouze základ slova spolu s označením vzoru + vzory a jejich skloňování / časování. Vytvořené slovníky.

Syntax

Rozpoznání správně utvořených českých vět (jednoduchých i souvětí) a jejich rozbor podle námi navržené hierarchie (věty hlavní a k nim příslušné věty vedlejší, zobecněné větné členy, slovní skupiny a slovní druhy). Řešení shody (podmětu a přísudku, shodného přívlastku) a volného slovosledu, který představuje v češtině jeden z hlavních problémů. Příklady vět, které je ČAJ schopen správně klasifikovat.

Sémantika

Sémantická kontrola věty podle slovesných rámců. Reprezentace slov a slovních spojení pomocí sémů. Malá aplikace demonstrující, jak mohou ve vzájemné návaznosti pracovat zmíněné 3 fáze analýzy.

O sémantice si můžete také přečíst podrobněji.



Program vznikl v průběhu asi 2 měsíců v rámci projeku z Umělé Inteligence (tento předmět vyučuje doc. Račanský) a samotnému programování předcházel asi měsíc studia dostupné literatury, navíc nebyly k dispozici počítačové slovníky češtiny - proto program nemohl postihnout český jazyk v celé jeho šířce.


Pro lokální uživatele je celý program dostupný v adresáři /net/aisa/corpus/NLP/caj/. Běží například v SWI prologu, spouští se predikátem go. ze souboru hlavni.pl.
language/encoding
Poslední změna: Pavel Rychlý