Search results

Page title matches

Microsoft Research Paraphrase Corpus - RTE Users

547 bytes (59 words) - 09:58, 21 December 2009
MSF2 The Portuguese/Spanish corpus of Multi-Sentence Fusion (Repository)
* '''Name of Dataset:''' MSF2 Corpus * '''Citation:''' If you use the MSF2 corpus in your research, please include the following citation in any resulting pa

2 KB (224 words) - 05:01, 4 May 2020

Page text matches

Resources for Pashto
VOA Corpus (small) This corpus is in the public domain

168 bytes (27 words) - 04:46, 11 August 2015
Resources for Hungarian
* [http://www.statmt.org/europarl Europarl corpus], sentence aligned with English ...://ucts.uniba.sk/aranea_about/ Araneum Hungaricum], Gigaword Hungarian web corpus

814 bytes (103 words) - 08:44, 26 June 2016
Resources for Spanish
...tp://ucts.uniba.sk/aranea_about/ Araneum Hispanicum], Gigaword Spanish web corpus * [http://www.corpusdelespanol.org/ Corpus del Español] (website only)

1 KB (155 words) - 05:40, 29 June 2020

Error creating thumbnail: File missing

File:Logo corpus.png

The Portuguese/Spanish corpus of Multi-Sentence Fusion | Corpus portugais/espagnol de Fusion Multi-phrases

(1,720 × 1,290 (122 KB)) - 04:48, 4 May 2020

Resources for Dutch
...p://ucts.uniba.sk/aranea_about/ Araneum Nederlandicum], Gigaword Dutch web corpus * [http://www.statmt.org/europarl Europarl corpus] - sentence-aligned with English

893 bytes (114 words) - 20:04, 5 September 2019
User:Tatcorpus
I'm one of the authors of Corpus of Written Tatar: http://corpus.tatar/en I added some information about our Corpus to this page: http://aclweb.org/aclwiki/index.php?title=Resources_for_Tatar

192 bytes (34 words) - 13:31, 4 May 2016
Resources for Portugese
* [http://corporavm.uni-koeln.de/colonia/ Colonia], corpus of historical Portuguese. * [http://www.statmt.org/europarl Europarl corpus], sentence aligned with English

955 bytes (127 words) - 05:09, 4 May 2020
Multilingual Corpora
*[http://wt.jrc.it/lt/Acquis/ ACQUIS COMMUNAUTAIRE Multilingual Corpus] ...sli.uvigo.es/CLUVI/ CLUVI Corpus (Galician-English-Spanish-French parallel corpus)]

3 KB (480 words) - 10:26, 16 February 2021
Template for Data (Repository)
* '''Name of Dataset:''' ABC Corpus. * '''Citation:''' If you use the ABC Corpus in your research, please include the following citation in any resulting pa

1 KB (187 words) - 19:58, 24 June 2008
SumTime-Meteo
SUMTIME-METEO is a parallel corpus of naturally occurring weather forecast texts and the The corpus has 1045 parallel data-text units and is

1 KB (197 words) - 15:46, 7 February 2009
Resources for Telugu
==Telugu POS tagger, Morph analyzer, Lemmatizer, Corpus== Keywords: Telugu, Part of Speech tagger, Lemmatizer, Morph Analyser, Corpus

1 KB (135 words) - 09:55, 26 May 2014
Resources for Bosnian
* [http://www.tekstlab.uio.no/Bosnian/Corpus.html Oslo Corpus of Bosnian Texts] ...ona.dlsi.ua.es/~fran/setimes/ Southeast European Times] (paragraph aligned corpus, Albanian, Bulgarian, English, Greek, Macedonian, Romanian, Serbo-Croatian,

394 bytes (47 words) - 13:44, 26 April 2008
Resources for Russian
...s", the Russian portion is 876 MB, the other languages in the multilingual corpus are: English/French/Spanish/Arabic/Chinese/German ...wmt15/translation-task.html#download WMT corpora], including the Yandex 1M corpus, News Commentary, and News Crawl

2 KB (269 words) - 08:55, 17 June 2015

File:TWSI397 source sentences.zip

..."wiki_title_sent.txt" in this Archive is an extended version of the file "corpus/wiki_titles.txt" in the TWSI 1.0. - sentence-id from corpus as referenced throughout the resource

(4.55 MB) - 11:04, 7 June 2010

Resources for Sámi
* [http://gtweb.uit.no/korp/ Corpus for North Sámi, South Sámi, parallel corpus North Sámi - Norwegian] ...torio.uit.no/freecorpus/orig/sme/ Original files + metadata for North Sámi corpus]

1 KB (190 words) - 07:38, 16 August 2017
Resources for Slovak
* [http://www.statmt.org/europarl Europarl corpus], sentence aligned with English * [http://ucts.uniba.sk/aranea_about/ Araneum Slovacum], Gigaword Slovak web corpus

794 bytes (102 words) - 13:28, 8 March 2015
Corpora for English
*[http://americannationalcorpus.org/ American National Corpus (ANC)] ...://www-rcf.usc.edu/~billmann/diversity/DDivers-site.htm Dialogue Diversity Corpus]

5 KB (788 words) - 18:58, 2 September 2019
Resources for Chinese
* [http://ucts.uniba.sk/aranea_about/ Araneum Sinicum], Gigaword Chinese web corpus ...icl_groups/corpus/dwldform1.asp Word Segmented and POS tagged People Daily Corpus at ICL of Peking University]

2 KB (264 words) - 18:42, 2 September 2019
Talk:WordSimilarity-353 Test Collection (State of the art)
== SSA should be corpus-based instead? == ...ccurring within contexts across a very large corpus'''. Unlike '''previous corpus-based methods''' of relatedness, which utilize word-word associations to cr

898 bytes (122 words) - 06:46, 12 February 2015
Wikipedia articles
* [http://en.wikipedia.org/wiki/Corpus_linguistics Corpus Linguistics] * [http://en.wikipedia.org/wiki/Text_corpus Text Corpus]

1 KB (163 words) - 08:26, 17 January 2007

Search results

Page title matches

Page text matches

Navigation menu

Search