Projet de recherche Source Corpus

Fryni Kakoyianni-Doa dirige actuellement les travaux de constitution d’un corpus parallèle grec-français élargi dans le cadre d’un projet de recherche en linguistique et didactique des langues étrangères nommé Source Corpus.

L’objectif principal en est de fournir aux chercheurs, traducteurs, enseignants et apprenants une base de données conséquente, pour l’étude et la recherche linguistiques. Elle doit être facile à utiliser, sous forme de ressource éducative ouverte. Ce corpus, toujours en voie de construction, est déjà accessible en ligne mais en accès réservé et en interface majoritairement française et anglaise pour le moment.

Sur le site de Source Corpus où sont affichés plusieurs outils différents :
- un moteur de recherche à l’intérieur du corpus et un concordancier ;
- un moteur permettant à l’utilisateur de procéder à la parallélisation automatique de textes fournis par lui-même et, bientôt, permettant aussi la construction d’une batterie d’exercices d’apprentissage ;
- un moteur qui permet de chercher des synonymes ;
- un moteur qui permet de créer des exercices et activités à partir des textes de corpus ;
- enfin un moteur qui permet à l’utilisateur de consulter ou de lire la version électronique intégrale de tous les ouvrages littéraires du corpus dans les deux langues (c’est la Library , libre de droits).

Source Corpus est constitué de textes parallèles de genres divers (politiques, littéraires et éducatifs) de la paire français-grec. Il convient de mentionner son caractère novateur à plusieurs titres :
- dans la plupart des corpus parallèles en ligne (Linguee et Glosbe), les registres ne sont pas indexés. Le corpus comprend au moins cinq registres différents, afin que chercheurs et apprenants puissent extraire des données d’un registre ou genre précis.
- les corpus de textes parallèles de la paire français-grec sont relativement rares : si pour la langue française, il existe un nombre satisfaisant de textes qui sont libres d’accès pour la recherche, comme Frantext et bien d’autres, en ce qui concerne la langue grecque, le nombre et la disponibilité des textes sont réduits. La plupart des textes qui apparaissent sur Internet ne sont pas libres d’accès pour la recherche ou sont trop courts pour la récupération automatique de données et par conséquent insuffisants pour un recensement crédible. Dans le corpus parallèle Glosbe, par exemple, qui offre la paire français-grec, la taille du texte et le registre sont inconnus.
- Source Corpus comprend par ailleurs des textes téléchargeables dans leur intégralité et des textes sélectionnés pour l’usage dans la salle de classe comme des grands classiques de la littérature française.
Dans son état actuel, et conformément aux impératifs de constitution de bases de corpus en matière de taille, de langage du corpus, de temps couvert par les textes du corpus et de registre, Source Corpus contient plus de trente millions de mots. La base permettra à terme d’effectuer des analyses aussi bien monolingues (français ou grec) que bilingues aux fins de traduction, de traitement automatique des langues, d’enseignement mais aussi à des fins de recherche, telles que des études contrastives pour la paire linguistique français ↔ grec.

D’un point de vue plus technique, Source Corpus comprend deux types de textes :
Le premier type regroupe des textes parallèles déjà disponibles en ligne et libres d’accès. Ces derniers ont été élaborés, reconvertis et parallélisés par nos soins lorsqu’ils ne l’étaient pas afin de les rendre accessibles à l’utilisateur non spécialiste en informatique.

Ils ont été extraits du Projet Opus, qui comprend par exemple Europarl, c’est-à-dire les actes du Parlement Européen, dans plusieurs langues. Le projet Opus regroupe un ensemble de corpus sur l’union européenne, des textes sur l’acquis communautaire, la Banque centrale européenne (ECB - European Central Bank corpus), les médicaments, les sous-titres de films, etc.

Ils proviennent aussi de communications présentées à des colloques éducatifs TED (Technology, Entertainment and Design). C’est une série de conférences internationale organisées par la fondation à but non lucratif Sapling Foundation. Cette fondation a été créée pour diffuser des « idées qui valent la peine d’être diffusées » La conférence TED définit sa mission comme « propagateur d’idées » et met gratuitement à la disposition du public les meilleures conférences sur son site Web. Les exposés couvrent un large éventail de sujets, tel que la science, les arts, la politique, les questions mondiales, l’architecture, la musique et plusieurs autres sphères de compétences.

Le corpus comprend aussi des modes d’emploi pour l’utilisation de divers logiciels (Linux , PHP, etc.), des œuvres littéraires extraites du Projet Gutenberg à partir d’autres sites (le Bourgeois gentilhomme, Candide, etc.). Le projet Gutenberg a été lancé en 1971 par Michael Hart, l’inventeur du eBook, dans le but de numériser des livres. La déclaration d’indépendance des États-Unis a été le premier texte numérisé. Le projet Gutenberg offre plus de 30 000 livres électroniques (eBooks) en téléchargement gratuit (ouvrages libres de droit) dans différents formats : ePub, Kindle, HTML, PDF, ou texte simple, et dans plusieurs langues. La recherche sur le site (en anglais) s’effectue par titre, auteur, catégories ou par ordre alphabétique et des sous-titres extraits du site www.opensubtitles.org (la plus grosse base de données de sous-titres multilingue).

Le second type regroupe des textes des grands classiques français ou grecs libres de droits, numérisés et parallélisés par les soins de l’équipe de recherche.

La coordination du projet est assurée par Fryni Kakoyianni-Doa et la recherche par Eleni Tziafa, toutes deux membres du Laboratoire Méthodal. Athanasios Naskos, Stefanos Antaris et Iakovos Papadopoulos ont été chargés du développement web.

Le projet a été financé deux fois par l’Université de Chypre.