Informace o projektu
Inteligentní software pro sémantické hledání dokumentů
Kód projektu | TD03000295 CEP CORDIS MU WEB INET MU |
---|---|
Doba řešení | 01.01.2016–31.12.2017 |
Stav | ukončený |
Investor | Technologická agentura ČR |
Program | OMEGA |
Řešitel za FI | |
Členové realizačního týmu za FI |
Anotace
Naše společensko-vědní kultura je definována slovy, které v dnešní
informační společnosti konstituují _dokumenty_.
Cílem projektu je vytvoření databázového systému (software),
který umožní hledání _významově_ příbuzných dokumentů.
Systém Scaletext se skládá ze tří částí:
* sémantická analýza: strojově analyzuje libovolný nestrukturovaný
dokument v přirozeném jazyce (čeština, angličtina)
* indexace: nalezená témata a strukturu každého dokumentu vnitřně uloží
ve vhodné reprezentaci _významů_ slov tak, aby systém umožnil posléze
hledat podobné dokumenty k dotazu (=dokumentu), index vizualizovat
* vyhledávání: pro vstupní dokument nalezne ty dokumenty, které odpovídají
(latentnímu) významu dotazu, a to i když nesdílí stejná slova
informační společnosti konstituují _dokumenty_.
Cílem projektu je vytvoření databázového systému (software),
který umožní hledání _významově_ příbuzných dokumentů.
Systém Scaletext se skládá ze tří částí:
* sémantická analýza: strojově analyzuje libovolný nestrukturovaný
dokument v přirozeném jazyce (čeština, angličtina)
* indexace: nalezená témata a strukturu každého dokumentu vnitřně uloží
ve vhodné reprezentaci _významů_ slov tak, aby systém umožnil posléze
hledat podobné dokumenty k dotazu (=dokumentu), index vizualizovat
* vyhledávání: pro vstupní dokument nalezne ty dokumenty, které odpovídají
(latentnímu) významu dotazu, a to i když nesdílí stejná slova