Création de logiciels pour l’inuktut et nouvelle concordance de texte pour les débats de l’Assemblée législative du Nunavut

 

Bien que l'inuktut soit la langue officielle du Nunavut, les technologies, les outils et les ressources à la disposition de ceux qui aimeraient l'apprendre et des langagiers professionnels sont moins nombreux qu'en anglais et en français, les deux autres langues officielles du territoire.

Le CNRC a collaboré avec le Centre Pirurvik et le gouvernement du Nunavut pour mettre au point de nouvelles technologies à l'intention des professionnels et de ceux qui souhaitent apprendre l'inuktut, mais aussi pour renforcer la place de ce dernier en tant que langue officielle.

Collaborateurs

Centre Pirurvik

Le Centre Pirurvik (en anglais seulement) est un centre d'excellence dans la langue, la culture et le bien-être inuits. Fondé à l'automne 2003, il a son siège à Iqaluit, capitale du Nunavut. Avoir accès à l'expertise du Centre Pirurvik dans les langues de la famille de l'inuktut est un formidable atout pour le CNRC.

Gouvernement du Nunavut

L'Assemblée législative du Nunavut a gracieusement remis au CNRC une version à jour des débats tenus par sa Chambre des communes entre 1999 et 2017.

Objectifs

  • Créer une nouvelle brochette d'outils pour ceux qui travaillent en inuktut ou qui souhaitent l'apprendre : actualiser le WebInuk et création de la gamme d'outils iutools
  • Faire concorder automatiquement les phrases du nouveau compte rendu des débats de la Chambre des communes du Nunavut (1999-2017)
  • Créer un système de traduction automatique capable de traduire entre l’anglais et l’inuktitut et stimuler la recherche sur des systèmes de traduction pour cette combinaison de langues

Produits livrables

Activités

Outils logiciels en inuktut, langue officielle : iutools

En octobre 2018, le CNRC et le Centre Pirurvik ont entamé leur collaboration en vue de créer des outils logiciels qui aideront les personnes travaillant en inuktut. Bien que l'inuktut soit l'une des langues officielles du Nunavut, les outils que l'on tient pour acquis en français et en anglais n'existent pas dans cette langue. Le projet a élaboré puis déployéun moteur de recherche Web, un assistant en traduction, un correcteur d'orthographe et d'autres outils pour ceux qui apprennent la langue, les linguistes et les personnes travaillant couramment en inuktut, notamment les fonctionnaires de l'administration territoriale. Le projet s'appuie sur les recherches de base réalisées précédemment au CNRC en analyse morphologique ainsi que sur le WebInuk, outil conçu pour les traducteurs. Les nouveaux outils, nommésiutools, ont étédéployée en 2020, et sont accessible gratuitement en ligne.

Transcription et édition de 75 heures de parole inuktut

Afin de soutenir la recherche en reconnaissance automatique de la parole au Centre de recherche informatique de Montréal (CRIM), le CNRC a financé des équipes du Centre Pirurvik qui ont transcrit 75 heures de paroles enregistrées en inuktut, et ont édité les transcriptions pour assurer un haut degré de qualité.

Concordance automatique

Autrefois, les linguistes informaticiens spécialisés en inuktut comptaient beaucoup sur une version des débats de la Chambre des communes du Nunavut dans laquelle à chaque phrase en inuktut correspondait une phrase en anglais. Ce corpus parallèle (contenu textuel) avait été conçu en 2005 par le CNRC, qui en avait accordé librement l'accès. L'équipe de projet du CNRC a complété un nouvel alignement automatique des phrases des débats de la Chambre des communes territoriale rédigés entre 1999 et 2017. Le nouveau corpus est beaucoup plus riche que la version de 2005.

Pour garantir une concordance de qualité, des experts du Centre Pirurvik ont fait correspondre manuellement environ 8 500 phrases tirées du compte rendu des débats de 1999 à 2017 dans les deux langues. L'équipe du CNRC s’est servi de cette « règle d'or » pour perfectionner son algorithme de concordance automatique. Le nouveau corpus bilingue du Nunavut et le sous-ensemble de phrases modèle sur lequel il s'appuie devraient inciter les spécialistes du monde entier à multiplier les recherches sur l'inuktut.

WMT 2020 Tâche partagée sur la traduction automatique entre l’anglais et l’inuktitut

Une série de compétitions annuelles, nommée WMT, permet à des équipes de comparer la performance de leurs systèmes de traduction automatique dans différentes combinaisons de langues. En 2020, pour la première fois, une des combinaisons de langues était l’anglais-inuktitut. Les systèmes de traduction ont été évalués selon la qualité de leurs traductions dans les deux directions : de l’anglais à l’inuktitut, et de l’inuktitut à l’anglais. L’inuktitut est la première langue polysynthétique à participer à la compétition WMT.

Le CNRC a financé l’évaluation ‘humaine’ des traductions de l’anglais à l’inuktitut. Des traducteurs experts du Centre Pirurvik qui parlent couramment l’inuktitut ont assigné des pointages à des traductions par ordinateur vers l’inuktitut. Le CNRC a aussi créé son propre système de traduction automatique pour cette paire de langues.

L’évaluation fut un succès fulgurant : 12 systèmes de traduction automatique provenant de partout dans le monde ont participé, incluant celui du CNRC. Les phrases produites par les systèmes ont été anonimisées afin d’éviter les conflits d’intérêts. Le système du CNRC s’est classé au deuxième rang dans les deux directions. L’inclusion de l’inuktitut à la compétition WMT a pour effet d’encourager la recherche par les traducteurs experts, ce qui bénéficiera ultimement les locuteurs d’inuktitut.

Publications

Notre équipe de projet

Alain Désilets

Alain Désilets

Développeur d'applications de traitement du langage naturel. A dirigé le projet WeBlnuk, qui permet aux traducteurs d'effectuer des recherches dans de vastes corpus de contenu parallèle en anglais et en Inuktut. Il travaille sur une nouvelle version de WeBInuk, et dirige maintenant le projet iutools pour l’Inuktut.

Eric Joanis

Eric Joanis

Linguistique informatique; traitement statistique du langage naturel; traduction automatique; optimisation et solidification des logiciels.

Rebecca Knowles

Chercheure en traduction automatique; en traduction assistée par ordinateur; et en traduction automatique des langues pour lesquelles il y a moins de ressources.

Gavin Nesbitt

Gavin Nesbitt

Directeur, Centre Pirurvik

 

Contactez-nous

Janet Tamalik McGrath
Conseillère en inuktut, Centre Pirurvik
Courriel : info@pirurvik.ca

L'Assemblée législative du Nunavut
Courriel : leginfo@assembly.nu.ca

Roland Kuhn
Chef du projet sur les technologies pour les langues autochtones, CNRC
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca
LinkedIn : Roland Kuhn

Liens connexes