Informace o projektu
Ověření úspěšnosti technik zpracování přirozeného jazyka pro extrakci informací ze skenovaných dokumentů
Kód projektu | MUNI/33/55939/2017 CEP CORDIS MU WEB INET MU |
---|---|
Doba řešení | 01.04.2017–31.08.2018 |
Stav | ukončený |
Investor | Masarykova univerzita |
Program | Interní projekty CTT |
Řešitel za FI | |
Členové realizačního týmu za FI |
Anotace
Cílem projektu je ověřit možnost automatického vytěžování informací ze skenovaných textů - finančních dokumentů (faktur) a smluvních dokumentů. Ze vstupu v podobě sledu naskenovaných dokumentů ve formě částečně strukturované textu bude nejprve každý dokument automaticky klasifikován do určité kategorie. U finančních dokumentů budou extrahovány informace o dodavateli a odběrateli, datu splatnosti, jednotlivých položkách faktury (cena a popis), místu vydání faktury, číslu objednávky a faktury a také o čísle účtu a dalších platebních parametrech. U smluvních dokumentů se budou extrahovat informace o jednotlivých smluvních stranách (jména, adresy, ...), datu podpisu, typy smlouvy, závazcích smluvních stran a spisovém číslu dokumentu. Veškeré tyto informace je zatím možné efektivně získávat pouze ručně. Navrhovaný tým má v současnosti k dispozici vlastní podpůrné jazykové nástroje a v rámci projektu plánuje ověřit jejich efektivitu při zmíněných procesech automatické extrakce informací.