AI opraví Opravidlo
Úspěšný jazykový korektor Opravidlo z dílny Filozofické fakulty MU se dočká vylepšení s využitím umělé inteligence. Stane se tak díky spolupráci s vědeckým týmem z Fakulty informatiky MU a podpoře z evropského projektu Open Call for Open Science Projects and Services (OSCARS). Co všechno dnes Opravidlo umí a na co se můžeme těšit v budoucnu? Odpovědi nám společně poskytli doc. RNDr. Aleš Horák, Ph.D., a RNDr. Zuzana Nevěřilová, Ph.D., z FI MU a Mgr. Hana Žižková, Ph.D., z FF MU, zastupující řešitelský tým projektu.
Přibližte nám prosím detaily projektu a jeho realizaci v rámci OSCARS.
Jazykový korektor Opravidlo Beta umí opravit některé chyby v češtině – gramatické (například interpunkci a některé typy syntaktické shody), pravopisné (například velká písmena), ale také chyby sazby (mezery, závorky, měny apod.). Cílem projektu je výrazné vylepšení této aplikace. Zúčastnili jsme se 1. výzvy OSCARS. Projekty OSCARS dbají na otevřenou vědu (Open Science) a cílem našeho projektu je kromě aplikace, která je už teď zdarma využívána mnoha uživateli, poskytnout i vědecká data širší komunitě. Jazykové korektory jsou poměrně žádané i pro jiné jazyky. Zvláště vývojářům pro jiné slovanské jazyky pomohou naše data urychlit jejich vlastní vývoj. Analýza toho, kde lidé v textu chybují, je zajímavá jak pro lingvisty, tak pro učitele jazyka.
V projektu Opravidlo 2.0 vytvoříme nový nástroj, který bude založený na hlubokých neuronových sítích a velkých jazykových modelech a na datech a pravidlech vytvořených v současné verzi Opravidla.
S kým na projektu spolupracujete?
Projekt jsme podávali společně: FI MU s FF MU. Hlavním řešitelem je doc. Horák z FI. Někteří členové týmu jsou stejní jako u předchozího projektu Opravidlo Beta, který vznikl díky grantu Technologické agentury ČR.
Stávající projekt Opravidlo vznikal převážně na FF MU. Opravidlo 2.0 bude stát na technikách umělé inteligence a na výsledcích současného Opravidla, takže půjde o mezifakultní spolupráci týmů z FI a FF.
Popište prosím, v čem konkrétně bude Opravidlo 2.0 lepší ve srovnání s předchozí verzí.
Opravidlo Beta stojí na ručně vytvořených pravidlech a má vysokou přesnost. To znamená, že když vyznačí část textu jako chybu, s velkou pravděpodobností to chyba je. Na druhou stranu má korektor nižší pokrytí, což znamená, že některé chyby “přehlédne”. Cílem projektu je zvýšit pokrytí chyb, ale bez “falešných hlášek”, kdy by aplikace indikovala chybu, ale text by přitom byl v pořádku. Chceme kromě ručně vytvořených pravidel využít také neuronové sítě, které by měly zachytit různé nuance textu a identifikovat obvyklost nebo neobvyklost nějaké větné konstrukce.
Další důležitou složkou aplikace je vysvětlitelnost, která jde ruku v ruce s použitím neuronových sítí. U AI aplikací je časté riziko, že lidé nechápou, proč systém nějak rozhodl. Je to výrazné negativum aplikací umělé inteligence a snižuje jejich reálnou použitelnost. V současnosti poskytuje Opravidlo Beta vysvětlení u řady nalezených chyb - tato vysvětlení jsou součástí pravidel (např. pravidlo nalezne chybu ve shodě přísudku a podmětu a “ví”, že jde právě o tento problém). Bude těžké najít pro chyby identifikované neuronovou sítí relevantní vysvětlení, bez něj by ale aplikaci uživatelé přijímali s menší důvěrou.
Řešitelský tým z FF a FI MU (foto: Ondřej Vedral/FF MU)
Jak máte rozdělené role v týmu?
Opravidlo navrhuje nejen opravu, ale také vysvětluje, proč je vyznačený text chyba. Vysvětlení musejí být jednak správná v kontextu (aby například aplikace nevysvětlovala chybějící čárku v souvětí tam, kde je výčet), jednak srozumitelná. Tým FF je odpovědný za tuto část. Tým FI se bude věnovat neuronovým sítím, které budou vyhodnocovat, jak moc je určitá část textu nebo větná konstrukce obvyklá a jaká je pravděpodobnost chyby. Budeme tedy odpovědní za data, jejich uložení, opatření metadaty a publikování ve velkých výzkumných infrastrukturách. Budeme také integrovat oba přístupy tak, aby spolu pravidla a pravděpodobnostní výstupy ladily.
Jsou do projektu zapojeni i studující z FI?
Ano, zapojujeme bakalářské, magisterské i postgraduální studující jako vývojáře a experimentátory.
Komu je Opravidlo dostupné a kde se k němu může veřejnost dostat?
Opravidlo je volně dostupné prostřednictvím webové stránky na www.opravidlo.cz. Do volného pole můžete text buď vepsat, nebo nakopírovat. V zadaném textu pak nástroj podtrhne místa, která jsou chybná, navrhne opravu a nabídne uživateli link z Internetové jazykové příručky s vysvětlením.
Jak dlouho budete projekt realizovat a jaké jsou nejbližší kroky?
Projekt je na dva roky a začal teď v říjnu 2024. Prvním krokem ještě před vlastním zahájením projektu bylo propagační video. Následovalo ustavení týmu, rozdělení rolí a spuštění prvních jednotlivých work packages podle plánovaného harmonogramu.
Kdy bude dostupná aktualizovaná verze Opravidla?
Předpokládáme, že by to mohlo být do dvou let.
Existují srovnatelné nástroje? Proč bychom si měli Opravidlo vybrat?
Nástroje jako ChatGPT také umí opravit český text, a to poměrně spolehlivě. Jejich nevýhodou je, že chybu v textu nevyznačí, někdy volně přeformulují zadaný text a neumí poskytnout lingvistické vysvětlení, proč je daný jev správně, nebo chybně. Opravidlo má přesah ve vysvětlení a v tom, že ukáže, kde chyba v textu přesně je.
Výhodou Opravidla je otevřenost a transparentnost. Uživatel bude moci aplikaci věřit, že nesbírá jeho data, pokud s tím nesouhlasí, že výsledek opravy bude vždy stejný a předvídatelný, a že dostane s navrženou opravou i správné vysvětlení. ChatGPT se totiž můžete na vysvětlení zeptat. U jazyků, na které není zaměřený, ale často dostanete chybnou odpověď.
Chcete zmínit ještě cokoliv dalšího?
Pro nás je zajímavé, že OSCARS míří na využití velkých výzkumných infrastruktur, jejichž užitečnost je pro veřejnost podle mě málo jasná. Za nás je to ale jednoznačné - jsme už dlouho součástí infrastruktury CLARIN (jazyková data a softwarové nástroje). Díky infrastruktuře CLARIN (CLARIAH, česky LINDAT/CLARIAH) můžeme publikovat data i nástroje a někdo jiný je může využít, to samé samozřejmě i naopak. Infrastruktura nabízí bezpečné, dlouhodobě udržitelné prostředí pro vědecké výsledky. Další takové infrastruktury jsou např. IT4Innovations (PRACE), které nabízejí kapacitu pro vědecké výpočty. Víc se toho dá najít pod klíčovým slovem ESFRI, třeba tady.
Děkuji za rozhovor, vývoj nového Opravidla budeme dále sledovat.
Autorka: Marta Vrlová, Oddělení vnějších vztahů a spolupráce s partnery FI MU