Identifikační kód | RIV/00216224:14330/15:00085135 |
Název v anglickém jazyce | Slavonic Corpus for Stylometry Research |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2015 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 1 |
Počet tvůrců celkem | 2 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Ján Švec (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 4837010) Jan Rygl (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6045111) |
Popis výsledku v anglickém jazyce | Stylometry techniques such as authorship recognition, machine translation detection and pedophile identification are daily used in applications for the most widely used languages. But under-represented languages lack data sources usable for stylometry research. In this paper, we propose an algorithm to build corpora containing meta-information required for stylometry experiments (author information, publication time, document heading, document borders) and introduce our tool Authorship Corpora Builder (ACB). We modify crawling and data-cleaning techniques for purposes of stylometry field and add heuristic layer to detect and extract meta-information. The system was used on Czech and Slovak web domains to build a Slavonic corpus for stylometry research.Collected data have been published and we are planning to build collections for other languages and gradually extend existing ones. |
Klíčová slova oddělená středníkem | stylometry; slavonic corpus; web structure detection; corpora building |
Stránka www, na které se nachází výsledek | - |