Informace o projektu

Velké jazykové korpusy a jejich automatická analýza

Kód projektu GA405/03/0913 CEP CORDIS MU WEB INET MU
Doba řešení 01.01.2003–31.12.2005
Stav ukončený
Investor Grantová agentura ČR
Program Standardní projekty
Řešitel za FI

Anotace

Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např. pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotace může odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metod statistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažených v předchozích projektech a grantech s obdobnou tématikou (především data a metody). Role velkých jazykových korpusů přitom bude dvojí: jako zdroj materiálu pro vývoj těchto metod, a jako cílový materiál, na kterém budou nově vyvinuté metody vyzkoušeny a aplikovány. Anotované korpusy tak budou moci být využity např. pro tvorbu nových slovníků, které jsou pro češtinu již nezbytně potřeba. Výsledky projektu budou publikovány, a to včetně vytvořených programových nástrojů a dat.

Zpět na seznam investorů