Úkol: vyhodnocení kvality trénovacích dat pro strojový překlad
Systémy strojového překladu učíme na paralelních textech, kde máme
páry vět ze dvou jazyků. Dále můžeme využít i jednojazyčné korpusy.
V obou případech potřebujeme texty maximálně kvalitní. Úkolem je pro vybrané
datové soubory zjistit, jestli, případně jak, jsou použitelné pro učetní
strojového překladu.
Možné problémy v datech:
- text není v určeném jazyce
- text je nějakým způsobem generovaný a neodpovídá běžnému textu
- v textu chybí některé znaky, nebo jsou ve špatném kódování
- paralelní texty nejsou správně zarovnané (odpovídající věty si nejsou překladem)
- obsahuje jen fráze či slova bez delšího kontextu
Z následujích seznamů si vyberte soubory pro jazyk, kterému dobře rozumíte.
Pro každý soubor samostatně:
- popište probémy, proč jsou některé věty pro učení překladu nevhodné
- napište program/skript, který problémové řádky detekuje, případně
alespoň popište postup slovně
- napište program/skript, který problémové řádky opraví, aby byly použitelné
(např. smaže nežádoucí část)
Za celý úkol můžete získat maximálně 20 bodů. Zhruba 5 bodů za jeden soubor
(příp. pár souborů u paralelních). Jednotlivé soubory nemusíte zpracovat do stejné
podrobnosti, u jednoho můžete jen popsat problémy, u jiného napsta skipty na detekci
problémů či opravu. Hlavním kritériem bude množství "pozorování", co všechno a do jaké
podrobnosti dokážete v textech najít.
Termín: do konce června 2024.
Texty jsou organizovány po řádcích, jeden řádek je jeden "učicí" příklad pro trénování.
Paralelní sady mají vždy dva soubory, pro každý jazyk jeden, se stejným počtem řádků.
Zarovnání řádků je dáno jejich pořadím. Do jednoho soboru si je můžete spojit např.
příkazem paste xxx.ces.txt xxx.ukr.txt >xxx.ces-urk.txt
Jednojazyčné texty
Ukrajinština
LangUk-fiction-1-ukr.ukr
LangUk-laws-1-ukr.ukr
LangUk-ubercorpus-1-ukr.ukr
LangUk-wiki_dump-1-ukr.ukr
Leipzig-news-2022_1m-ukr.ukr
Leipzig-newscrawl-2018_1m-ukr.ukr
Leipzig-wikipedia-2021_1m-ukr.ukr
Statmt-news_crawl-2021-ukr.ukr
Leipzig-web-2019_1m-ukr_UA.ukr_UA
Čeština
Leipzig-news-2022_1m-ces.ces
Leipzig-newscrawl-2019_1m-ces.ces
Leipzig-wikipedia-2021_1m-ces.ces
Statmt-commoncrawl-wmt22-ces.ces
Statmt-europarl-10-ces.ces
Statmt-news_commentary-17-ces.ces
Statmt-news_crawl-2021-ces.ces
Paralelní texty
ELRC-acts_ukrainian-1-ces-ukr: ces ukr
Facebook-wikimatrix-1-ces-ukr: ces ukr
OPUS-ccmatrix-v1-ces-ukr: ces ukr
OPUS-elrc_wikipedia_health-v1-ces-ukr: ces ukr
OPUS-eubookshop-v2-ces-ukr: ces ukr
OPUS-kde4-v2-ces-ukr: ces ukr
OPUS-multiparacrawl-v9b-ces-ukr: ces ukr
OPUS-opensubtitles-v2018-ces-ukr: ces ukr
OPUS-qed-v2.0a-ces-ukr: ces ukr
OPUS-tatoeba-v20220303-ces-ukr: ces ukr
OPUS-ted2020-v1-ces-ukr: ces ukr
OPUS-ubuntu-v14.10-ces-ukr: ces ukr
OPUS-wikimedia-v20210402-ces-ukr: ces ukr
OPUS-xlent-v1.1-ces-ukr: ces ukr