Informace o projektu

Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů

Kód projektu	MUNI/33/55939/2017 CEP CORDIS MU WEB INET MU
Doba řešení	01.04.2017–31.08.2018
Stav	ukončený
Investor	Masarykova univerzita
Program	Interní projekty CTT
Řešitel za FI	doc. RNDr. Aleš Horák, Ph.D.
Členové realizačního týmu za FI	RNDr. Marek Medveď, Ph.D. RNDr. Vojtěch Kovář, Ph.D. doc. Mgr. Pavel Rychlý, Ph.D.

Anotace

Cílem projektu je ověřit možnost automatického vytěžování informací ze skenovaných textů - finančních dokumentů (faktur) a smluvních dokumentů. Ze vstupu v podobě sledu naskenovaných dokumentů ve formě částečně strukturované textu bude nejprve každý dokument automaticky klasifikován do určité kategorie. U finančních dokumentů budou extrahovány informace o dodavateli a odběrateli, datu splatnosti, jednotlivých položkách faktury (cena a popis), místu vydání faktury, číslu objednávky a faktury a také o čísle účtu a dalších platebních parametrech. U smluvních dokumentů se budou extrahovat informace o jednotlivých smluvních stranách (jména, adresy, ...), datu podpisu, typy smlouvy, závazcích smluvních stran a spisovém číslu dokumentu. Veškeré tyto informace je zatím možné efektivně získávat pouze ručně. Navrhovaný tým má v současnosti k dispozici vlastní podpůrné jazykové nástroje a v rámci projektu plánuje ověřit jejich efektivitu při zmíněných procesech automatické extrakce informací.

Zpět na seznam investorů