HindEnCorp ? Hindi-English and Hindi-only Corpus for Machine Translation (2014)výskyt výsledku
Identifikační kód | RIV/00216224:14330/14:00076251 |
---|---|
Název v anglickém jazyce | HindEnCorp ? Hindi-English and Hindi-only Corpus for Machine Translation |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 7 |
Počet domácích tvůrců | 2 |
Výčet všech uvedených jednotlivých tvůrců | Ondřej Bojar (státní příslušnost: CZ - Česká republika) Vojtěch Diatka (státní příslušnost: CZ - Česká republika) Pavel Rychlý (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 6616844) Pavel Straňák (státní příslušnost: CZ - Česká republika) Vít Suchomel (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8884439) Aleš Tamchyna (státní příslušnost: CZ - Česká republika) Daniel Zeman (státní příslušnost: CZ - Česká republika) |
Popis výsledku v anglickém jazyce | We present HindEnCorp, a parallel corpus of Hindi and English, and HindMonoCorp, a monolingual corpus of Hindi in their release version 0.5. Both corpora were collected from web sources and preprocessed primarily for the training of statistical machine translation systems. HindEnCorp consists of 274k parallel sentences (3.9 million Hindi and 3.8 million English tokens). HindMonoCorp amounts to 787 million tokens in 44 million sentences. Both the corpora are freely available for non-commercial research and their preliminary release has been used by numerous participants of the WMT 2014 shared translation task. |
Klíčová slova oddělená středníkem | Machine Translation; SpeechToSpeech Translation; Metadata |
Stránka www, na které se nachází výsledek | http://www.lrec-conf.org/proceedings/lrec2014/summaries/835.html |
Údaje o výsledku v závislosti na druhu výsledku
Název sborníku | Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14) |
---|---|
ISBN | 9782951740884 |
ISSN | - |
Počet stran výsledku | 6 |
Strana od-do | 3550-3555 |
Název nakladatele | European Language Resources Association (ELRA) |
Místo vydání | Reykjavik, Iceland |
Místo konání akce | Reykjavik, Iceland |
Datum konání akce | 26.05.2014 |
Typ akce podle státní příslušnosti účastníků | WRD - Celosvětová |
Kód UT WoS článku podle Web of Science | - |
Ostatní informace o výsledku
Předkladatel | Masarykova univerzita / Fakulta informatiky |
---|---|
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2015 |
Specifikace | RIV/00216224:14330/14:00076251!RIV15-MSM-14330___ |
Datum poslední aktualizace výsledku | 29.05.2015 |
Kontrolní číslo | 152393965 |
Informace o dalších výskytech výsledku dodaného ostatními předkladateli
Dodáno MŠMT v roce 2015 | RIV/00216208:11320/14:10289364 v dodávce dat RIV15-MSM-11320___/01:1 předkladatelem Univerzita Karlova v Praze / Matematicko-fyzikální fakulta |
---|
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
Projekt podporovaný MŠMT v programu LM | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015) |
---|