Identifikační kód | RIV/00216224:14330/11:00052712 |
Název v anglickém jazyce | Indexing and Searching Mathematics in Digital Libraries -- Architecture, Design and Scalability Issues |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2011 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Petr Sojka (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 7883927) Martin Líška (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 4357469) |
Popis výsledku v anglickém jazyce | This paper surveys approaches and systems for searching mathematical formulae in mathematical corpora and on the web. The design and architecture of our MIaS (Math Indexer and Searcher) system is presented, and our design decisions are discussed in detail. An approach based on Presentation MathML using a similarity of math subformulae is suggested and verified by implementing it as a math-aware search engine based on the state-of-the-art system, Apache Lucene. Scalability issues were checked based on 324,000 real scientific documents from arXiv archive with 112 million mathematical formulae. More than two billions MathML subformulae were indexed using our Solr-compatible Lucene extension. |
Klíčová slova oddělená středníkem | math indexing and retrieval; mathematical digital libraries; information systems; information retrieval; mathematical content search; document ranking of mathematical papers; math text mining; MIaS; WebMIaS |
Stránka www, na které se nachází výsledek | - |
DOI výsledku | 10.1007/978-3-642-22673-1_16 |