HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation (2014)výskyt výsledku
Identifikační kód | RIV/00216208:11320/14:10289364 |
---|---|
Název v anglickém jazyce | HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation |
Druh | D - Článek ve sborníku |
Jazyk | eng - angličtina |
Obor - skupina | I - Informatika |
Obor | IN - Informatika |
Rok uplatnění | 2014 |
Kód důvěrnosti údajů | S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku | 2 |
Počet tvůrců celkem | 7 |
Počet domácích tvůrců | 5 |
Výčet všech uvedených jednotlivých tvůrců | Ondřej Bojar (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 2630176) Vojtěch Diatka (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 4851358) Pavel Rychlý (státní příslušnost: CZ - Česká republika) Pavel Straňák (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 8229570) Vít Suchomel (státní příslušnost: CZ - Česká republika) Aleš Tamchyna (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 3528839) Daniel Zeman (státní příslušnost: CZ - Česká republika, domácí tvůrce: A, vedidk: 9363661) |
Popis výsledku v anglickém jazyce | We present HindEnCorp, a parallel corpus of Hindi and English, and HindMonoCorp, a monolingual corpus of Hindi in their release version 0.5. Both corpora were collected from web sources and preprocessed primarily for the training of statistical machine translation systems. HindEnCorp consists of 274k parallel sentences (3.9 million Hindi and 3.8 million English tokens). HindMonoCorp amounts to 787 million tokens in 44 million sentences. Both the corpora are freely available for non-commercial research and their preliminary release has been used by numerous participants of the WMT 2014 shared translation task. |
Klíčová slova oddělená středníkem | translation; machine; corpus; only; hindi; english; hindi; hindencorp |
Stránka www, na které se nachází výsledek | http://www.lrec-conf.org/proceedings/lrec2014/pdf/835_Paper.pdf |
Údaje o výsledku v závislosti na druhu výsledku
Název sborníku | Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014) |
---|---|
ISBN | 978-2-9517408-8-4 |
ISSN | - |
Počet stran výsledku | 6 |
Strana od-do | 3550-3555 |
Název nakladatele | European Language Resources Association |
Místo vydání | Reykjavík, Iceland |
Místo konání akce | Reykjavík, Iceland |
Datum konání akce | 26.05.2014 |
Typ akce podle státní příslušnosti účastníků | WRD - Celosvětová |
Kód UT WoS článku podle Web of Science | - |
Ostatní informace o výsledku
Předkladatel | Univerzita Karlova v Praze / Matematicko-fyzikální fakulta |
---|---|
Dodavatel | MSM - Ministerstvo školství, mládeže a tělovýchovy (MŠMT) |
Rok sběru | 2015 |
Specifikace | RIV/00216208:11320/14:10289364!RIV15-MSM-11320___ |
Datum poslední aktualizace výsledku | 29.05.2015 |
Kontrolní číslo | 152059378 |
Informace o dalších výskytech výsledku dodaného ostatními předkladateli
Dodáno MŠMT v roce 2015 | RIV/00216224:14330/14:00076251 v dodávce dat RIV15-MSM-14330___/01:1 předkladatelem Masarykova univerzita / Fakulta informatiky |
---|
Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl
Projekt podporovaný MŠMT v programu LM | LM2010013 - LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (2010 - 2015) |
---|