Organizace U  S Kód
hodnocení
Skupina
oborů
Body
výsledku
Body
upravené
Podíl VOBody VOBody VO
upravené
H14
Masarykova univerzita / Fakulta informatiky1516 neu 400000
Výsledky hodnocení dříve prezentovala speciální podoba stránek výskytů výsledků doplněná informacemi o hodnocení daného výskytu a výsledku. To zde supluji doplněním kopií stránek z rvvi.cz/riv z 18.12.2017 o relevantní údaje z dat H16. Najetí myší na kód či skupinu zobrazí vysvětlující text (u některých vyřazených není k dispozici). Čísla jsou oproti zdroji zaokrouhlena na 3 desetinná místa.

Slavonic Corpus for Stylometry Research (2015)výskyt výsledku

Identifikační kódRIV/00216224:14330/15:00085135
Název v anglickém jazyceSlavonic Corpus for Stylometry Research
DruhD - Článek ve sborníku
Jazykeng - angličtina
Obor - skupinaI - Informatika
OborIN - Informatika
Rok uplatnění2015
Kód důvěrnosti údajůS - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku1
Počet tvůrců celkem2
Počet domácích tvůrců2
Výčet všech uvedených jednotlivých tvůrcůJán Švec (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A, vedidk: 4837010)
Jan Rygl (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6045111)
Popis výsledku v anglickém jazyceStylometry techniques such as authorship recognition, machine translation detection and pedophile identification are daily used in applications for the most widely used languages. But under-represented languages lack data sources usable for stylometry research. In this paper, we propose an algorithm to build corpora containing meta-information required for stylometry experiments (author information, publication time, document heading, document borders) and introduce our tool Authorship Corpora Builder (ACB). We modify crawling and data-cleaning techniques for purposes of stylometry field and add heuristic layer to detect and extract meta-information. The system was used on Czech and Slovak web domains to build a Slavonic corpus for stylometry research.Collected data have been published and we are planning to build collections for other languages and gradually extend existing ones.
Klíčová slova oddělená středníkemstylometry; slavonic corpus; web structure detection; corpora building
Stránka www, na které se nachází výsledek-

Údaje o výsledku v závislosti na druhu výsledku

Název sborníkuProceedings of Ninth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2015.
ISBN9788026309741
ISSN2336-4289
Počet stran výsledku11
Strana od-do11-21
Název nakladateleTribun EU
Místo vydáníBrno
Místo konání akceKarlova Studánka, Czech Republic
Datum konání akce04.12.2015
Typ akce podle státní příslušnosti účastníkůEUR - Evropská
Kód UT WoS článku podle Web of Science-

Ostatní informace o výsledku

PředkladatelMasarykova univerzita / Fakulta informatiky
DodavatelMSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT)
Rok sběru2016
SpecifikaceRIV/00216224:14330/15:00085135!RIV16-MSM-14330___
Datum poslední aktualizace výsledku24.05.2016
Kontrolní číslo191636443

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný MŠMT v programu LMLM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015)