Úkolem je označkovat 10 českých vět (zhruba 200 tokenů) pomocí značek z Universal Dependencies, předpokládaná doba značkování je 15-30 minut. Cílem úkolu je určit mezianotátorskou shodu a pozorovat, u jakých slov či gramatických konstrukcí je značkování obtížné.
Pro vybrané studenty na úkol může navazovat projekt se značkováním dalších vět a řešením problémů formou dokumentace či iniciování změn v dokumentaci Universal Dependencies.
Značkování je přístupné na adrese https://corpora.fi.muni.cz/corat/ po přihlášení. Jako login použijte své učo, jako heslo použijte první a druhý znak z svého příjmení bez diakritiky, malými písmeny.
Po přihlášení zahájíte značkování kliknutím na Load sentence.
Ovládat lze myší, kliknutím na token a výběrem příslušné značky ze zobrazené nabídky. Hotovou větu potvrdíte pomocí Submit sentence.
Rychlejší je použití klávesnice. Pro pohyb mezi tokeny lze používat šipky vpravo a vlevo nebo mezerník (pro pohyb vpřed). Číslované položky v menu lze vybrat stiskem klávesy s příslušnou číslicí. Pro zavření aktuálně zobrazené nabídky lze použít klávesu 0
. Pro potvrzení věty a přechod na další lze použít Ctrl+Enter.
Před vlastním značkováním se seznamte se použitými značkami. Při vlastním značkován je možné zobrazovat nápovědu k příslušným značkám ve spodní části okna. Tam se tedy zobrazují obecné informace, pro češtinu je potřeba kliknout na [cs]
na konci stránky.
Věty jsou předkládány v náhodném pořadí, po dokončení úkolu je zobrazeno: Annotation finished! Nothing more to annotate.
Za zodpovědné onačkování 10 vět dostanete 3 body ke zkoušce. Další body můžete získat za aktivní účast při následné debatě o značkování na hodině.
Značkování je potřeba dokončit do pondělí ráno (24.4. do 7 hodin).