Informace o projektu
Počítačový korpus českých psaných textů (Počítačový fond češtiny)
Kód projektu | GA405/93/0218 CEP CORDIS MU WEB INET MU |
---|---|
Doba řešení | 01.01.1993–31.01.1995 |
Stav | ukončený |
Investor | Grantová agentura ČR |
Program | Standardní projekty |
Řešitel za FI |
Anotace
Cílem projektu je vytvořit reprezentativní korpus českých psaných textů v rozsahu 20 miliónů slovních tvarů a na jeho základě pak v druhé fázi připravit velký Slovník českého jazyka. Výsledky projektu budou k dispozici v následujících podobách: a) souhrnná výzkumná zpráva obsahující informace o korpusu a jeho vytváření, b) vlastní korpus uložený ve standardním formátu na počítačových médiích, c) soubor nástrojů - algoritmů a programů pro práci na korpusu, d) v konečné fázi (nikoli v rámci tohoto grantu) Slovník českého jazyka. Na projektu se budou podílet přední odborníci v současné i historické bohemistice, lexikografii a počítačové lingvistice, kteří pocházejí z univerzitních pracovišť na filozofické fakultě Karlovy a Masarykovy univerzity, dále z pracoviště na Matematicko-fyzikální fakultě UK a také z Ústavu pro jazyk český AV ČR.