Création de logiciels pour l’inuktut et nouvelle concordance de texte pour les débats de l’Assemblée législative du Nunavut

 

Bien que l'inuktut soit la langue officielle du Nunavut, les technologies, les outils et les ressources à la disposition de ceux qui aimeraient l'apprendre et des langagiers professionnels sont moins nombreux qu'en anglais et en français, les deux autres langues officielles du territoire.

Le CNRC collabore avec le Centre Pirurvik et le gouvernement du Nunavut pour mettre au point de nouvelles technologies à l'intention des professionnels et de ceux qui souhaitent apprendre l'inuktut, mais aussi pour renforcer la place de ce dernier en tant que langue officielle.

Collaborateurs

Centre Pirurvik

Le Centre Pirurvik (en anglais seulement) est un centre d'excellence dans la langue, la culture et le bien-être inuits. Fondé à l'automne 2003, il a son siège à Iqaluit, capitale du Nunavut. Le CNRC collabore avec lui depuis l'été 2018. Cette collaboration s'est maintenant élargie à l'indexation de fichiers audio, à la création de logiciels pour les apprenants et les professionnels du langage, ainsi qu'à la concordance des textes. Avoir accès à l'expertise du Centre Pirurvik dans les langues de la famille de l'inuktut est un formidable atout pour le CNRC.

Gouvernement du Nunavut

L'Assemblée législative du Nunavut a gracieusement remis au CNRC une version à jour des débats tenus par sa Chambre des communes entre 1999 et 2017. On se servira de ce nouveau corpus pour faire concorder les phrases en inuktut et en anglais.

Objectifs

  • Créer une nouvelle brochette d'outils pour ceux qui travaillent en inuktut ou qui souhaitent l'apprendre : actualiser le WebInuk et d'autres outils
  • Faire concorder automatiquement les phrases du nouveau compte rendu des débats de la Chambre des communes du Nunavut (1999-2017)

Produits livrables

  • Moteur de recherche Web, assistant en traduction, correcteur d'orthographe et autres outils qui seront mis à la disposition de ceux qui apprennent l'inuktut et des professionnels
  • Nouveau corpus de source ouverte dans lequel les linguistes informaticiens et d'autres professionnels du langage pourront consulter les phrases en inuktut et celles qui leur correspondent en anglais

Activités

Outils logiciels en inuktut, langue officielle

En octobre 2018, le CNRC et le Centre Pirurvik ont entamé leur collaboration en vue de créer des outils logiciels qui aideront les personnes travaillant en inuktut. Bien que l'inuktut soit l'une des langues officielles du Nunavut, les outils que l'on tient pour acquis en français et en anglais n'existent pas dans cette langue. Le projet y remédiera par l'élaboration puis le déploiement d'un moteur de recherche Web, d'un assistant en traduction, d'un correcteur d'orthographe et d'autres outils pour ceux qui apprennent la langue, les linguistes et les personnes travaillant couramment en inuktut, notamment les fonctionnaires de l'administration territoriale. Le projet s'appuie sur les recherches de base réalisées précédemment au CNRC en analyse morphologique ainsi que sur le WebInuk, outil conçu pour les traducteurs. La version initiale des nouveaux outils, à laquelle on aura gratuitement accès sur Internet, sera déployée en 2020.

Concordance automatique

Autrefois, les linguistes informaticiens spécialisés en inuktut comptaient beaucoup sur une version des débats de la Chambre des communes du Nunavut dans laquelle à chaque phrase en inuktut correspondait une phrase en anglais. Ce corpus parallèle (contenu textuel) avait été conçu en 2005 par le CNRC, qui en avait accordé librement l'accès. L'équipe de projet du CNRC a entrepris de faire correspondre automatiquement les phrases des débats de la Chambre des communes territoriale rédigés entre 1999 et 2017. Une fois achevé, le nouveau corpus s'avérera beaucoup plus riche que la version de 2005.

Pour garantir une concordance de qualité, des experts du Centre Pirurvik feront correspondre manuellement environ 8 500 phrases tirées du compte rendu des débats de 1999 à 2017 dans les deux langues. L'équipe du CNRC se servira de cette « règle d'or » pour perfectionner son algorithme de concordance automatique. Après sa diffusion libre de droits, le nouveau corpus bilingue du Nunavut et le sous-ensemble de phrases modèle sur lequel il s'appuie devraient inciter les spécialistes du monde entier à multiplier les recherches sur l'inuktut.

Notre équipe de projet

Alain Désilets

Alain Désilets

Développeur d'applications de traitement du langage naturel. Dirige le projet WeBlnuk, qui permet aux traducteurs d'effectuer des recherches dans de vastes corpus de contenu parallèle en anglais et en Inuktut

Eric Joanis

Eric Joanis

Linguistique informatique; traitement statistique du langage naturel; traduction automatique; optimisation et solidification des logiciels

Gavin Nesbitt

Gavin Nesbitt

Directeur, Centre Pirurvik

 

Contactez-nous

Janet Tamalik McGrath
Conseillère en inuktut, Centre Pirurvik

Courriel : info@pirurvik.ca

L'Assemblée législative du Nunavut

Courriel : leginfo@assembly.nu.ca

Roland Kuhn
Chef du projet sur les technologies pour les langues autochtones, CNRC

Téléphone : 613-993-0821
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca
LinkedIn : Roland Kuhn

Liens connexes