MLCC Multilingual and Parallel Corpora

View resource name in all available languages

MLCC - Corpus multilingue et parallèle

MLCC

ID:

ELRA-W0023

The MLCC text corpus has two main components - one set to allow comparable studies to be carried out in different languages and one set as the basis for translation studies.

The first set is referred as the Polylingual Document Collection, a collection of newspaper articles from financial newspapers in 6 languages (Dutch, English, French, German, Italian and Spanish). It consists of the following sub-corpora:

Dutch - Het Financieele Dagblad - 1992-1993 (Samples)
The corpus contains articles from the Dutch financial newspaper Het Financieele Dagblad editions of 2nd January 1992 through to 24th December 1993. It contains around 8.5 million words of text.

English - The Financial Times - 1993 (Samples)
The corpus contains articles from the British financial newspaper The Financial Times editions from the year 1993. The corpus contains around 30 million words.

French - Le Monde - 1992-1993 (Samples)
A corpus of articles from the French newspaper Le Monde, consisting of two years worth (1992-1993) of articles on financial subjects, approximately 10 million words.

German - Handelsblatt - 1986-1988 (Samples)
This subcorpus consists of articles from the period 02.01.1986 to 15.06.1988. It contains some 33 million words. It may be possible to obtain more recent articles from Handelsblatt.

Italian - Il Sole 24 Ore - 1992-1993 (Samples)
The corpus described here contains articles from the Italian financial newspaper Il Sole 24 Ore from the year 1992. This corpus contains some 1.88 million words. The SGML-markup was done by the University of Edinburgh.

Spanish - Expansion - 1994 (Samples)
This subcorpus contains articles from the Spanish financial newspaper Expansion editions from 21.10.1991 to 24.10.1991 and 14.05.1994 to 27.12.1994. It contains some 10 million words.

The second set is a Multilingual Parallel Corpus consisting of translated data in nine European languages: Danish, Dutch, English, French, German, Greek, Italian, Portuguese and Spanish. The parallel data, provided by the European Commission, comprises two sub-corpora from the Official Journal of the European Communities:

Official Journal of the European Commission, C Series: Written Questions 1993
Records of questions and answers regarding European Community matters. The data is regularly published as one section of the C Series of the Official Journal of the European Community in all official languages (previously nine). This corpus contains written questions asked by members of the European Parliament and corresponding answers from the European Commission in 9 parallel versions. The total size of the corpus is approximately 10.2 million words (ca. 1.1 million words per language).

Official Journal of the European Commission, Annex: Debates of the European Parliament 1992-1994
This parallel corpus is the records of Parliamentary sitting published as an annex to the Official Journal of the European Community Debates of the European Parliament. The Parliamentary Debates are a record of what was said by members of the meeting as well as written input provided to the meeting. The original data from which the translations are produced consist of a transcript of the sittings, each member speaking in the language of his choice. The final version consists of nine parallel versions of the material. The texts delivered comprise the Debates of Parliament from January 1992 to July 1994. This sub-corpus contains some 5 to 8 million words per language.

View resource description in all available languages

Le corpus de textes MLCC est composé de deux ensembles de textes, un ensemble permettant des études comparatives réalisables sur plusieurs langues et un ensemble pouvant être utilisé dans le cadre d'études en matière de traduction.

Le premier ensemble est une collection de documents plurilingues, composés d'articles de quotidiens dans le domaine des finances dans 6 langues différentes (néerlandais, anglais, français, allemand, italien et espagnol). Cette collection est constituée des sous-corpus suivants :

Néerlandais - Het Financieele Dagblad - 1992-1993 (Echantillon)
Ce corpus contient des articles du journal financier néerlandais Het Financieele Dagblad, éditions du 2 janvier 1992 au 24 décembre 1993. Il comporte environ 8,5 millions de mots.

Anglais - The Financial Times - 1993 (Echantillon)
Le corpus contient des articles du journal britannique The Financial Times, éditions de l'année 1993. Il comporte environ 30 millions de mots.

Français - Le Monde - 1992-1993 (Echantillon)
Corpus d'articles extraits du quotidien français Le Monde, contenant deux années d'articles du domaine des finances (1992-1993) et environ 10 millions de mots.

Allemand - Handelsblatt - 1986-1988 (Echantillon)
Ce sous-corpus est composé d'articles pour la période du 02.01.1986 au 15.06.1988. Il comporte quelques 33 millions de mots. Il est possible d'obtenir des articles plus récents de Handelsblatt.

Italien - Il Sole 24 Ore - 1992-1993 (Echantillon)
Ce corpus contient des articles du quotidien financier italien Il Sole 24 Ore de 1992. Il est composé d'environ 1,88 millions de mots. Le balisage SGML a été réalisé par l'université d'Edinburgh.

Espagnol - Expansion - 1994 (Echantillon)
Ce sous-corpus contient des articles du quotidien financier espagnol Expansion, éditions du 21.10.1991 au 24.10.1991 et du 14.05.1994 au 27.12.1994. Il est composé de quelques 10 millions de mots.

Le second ensemble de MLCC est le corpus parallèle multilingue qui comporte des données traduites dans neuf langues européennes : danois, néerlandais, anglais, français, allemand, grec, italien, portugais et espagnol. Ces données alignées, fournies par la Commission Européenne, sont regroupées sous la forme de deux sous-corpus provenant du Journal Officiel de la Communauté Européenne :


Journal Officiel de la Commission Européenne, Séries C : Questions écrites de 1993
Ce sous-corpus comporte des enregistrements de questions et de réponses sur des sujets traitant de la Communauté Européenne. Ces données sont publiées régulièrement dans une section des séries C du Journal Officiel de la Communauté Européenne dans toutes les langues officielles (comportant neuf langues en 1993). Ce corpus contient des questions écrites effectuées par les membres du Parlement européen, ainsi que les réponses correspondantes fournies par la Commission Européenne en 9 versions parallèles. La taille du corpus est d'environ 10,2 millions de mots (près de 1,1 million de mots par langue).

Journal Officiel de la Commission Européenne, Annexe : Débats du Parlement européen 1992-1994
Ce corpus parallèle contient des enregistrements de séances parlementaires publiées en annexe du Journal Officiel de la Communauté Européenne Débats du Parlement européen. Ces débats parlementaires sont des enregistrements de ce qui a été dit par les membres au cours de cette réunion, ainsi que des données fournies pour cette réunion. Les données d'origine d'où les traductions ont été produites sont composées de transcriptions des séances, sachant que chaque membre parle dans la langue de son choix. La version finale est composée de neuf versions parallèles de ce document. Les textes fournis comprennent les débats du Parlement de janvier 1992 à juillet 1994. Ce sous-corpus contient de 5 à 8 millions de mots par langue.

You don’t have the permission to edit this resource.