Traitement multilingue de textes

L'équipe Traitement multilingue de textes du Conseil national de recherches du Canada (CNRC) effectue des recherches et du développement dans le domaine du traitement automatique des langues (TAL) dans un contexte multilingue. Cela comprend la traduction automatique et d'autres technologies langagières dans des contextes multilingues.

Nous collaborons en particulier avec le gouvernement, l'industrie, le milieu universitaire et d'autres partenaires à mettre au point des technologies langagières pour appuyer les langues officielles du Canada et la revitalisation des langues autochtones. Nous effectuons aussi de la recherche fondamentale et nous excellons dans des évaluations internationales où le calibre de notre recherche et de notre technologie est comparé à celui d'autres chefs de file dans le domaine.

Ce que nous offrons

Intégrée au Centre de recherche en technologies numériques du CNRC, l'équipe offre des compétences qui incluent :

  • Apprentissage automatique pour les applications en langage naturel
  • Évaluation de la qualité des traductions
  • Fouille de textes multilingue
  • Modélisation et analyse des médias sociaux
  • Traduction assistée par ordinateur
  • Traduction automatique

Nous appliquons notre expertise dans les secteurs suivants :

  • Traduction et services linguistiques, en appui à la Politique sur les langues officielles :
    • Traduction assistée par ordinateur avec le Bureau de la traduction, les Services d'administration des tribunaux et les fournisseurs de services linguistiques du secteur privé
    • Évaluation et estimation de la qualité des traductions automatiques, en collaboration avec le Bureau de la traduction
    • Filtrage et nettoyage de corpus parallèles, en collaboration avec le Bureau de la traduction et l'Université de Montréal
    • Routage des traductions, avec le concours du Bureau de la traduction
    • Détection d'erreurs d'équivalence en traduction, en collaboration avec la Commission de la fonction publique
  • Technologies d'apprentissage :
    • Modélisation et évaluation automatique des aptitudes linguistiques
    • Projet sur les technologies pour les langues autochtones canadiennes : logiciels et outils pour soutenir les écoles de langues autochtones, les éducateurs, les étudiants, les collectivités et les développeurs de technologies, en collaboration avec de multiples partenaires
    • Outil de compréhension linguistique, pour aider les employés du gouvernement du Canada à lire en langue seconde, avec le Bureau de la traduction
    • Traduction automatique pour l'écriture d'une langue seconde avec Dublin City University et l'Université du Québec en Outaouais
  • Services de renseignement, de surveillance et de sécurité  :
    • Détection des changements au sein d'un évènement en cours de déroulement et en temps réel à partir d'articles d'actualité ou de médias sociaux
    • Traduction automatique de contenus de médias sociaux pour la veille économique et les renseignements de sécurité

Logiciels et applications

Pourquoi travailler avec nous?

Notre équipe est composée d'un mélange unique de chercheurs de classe mondiale ayant une formation en linguistique computationnelle, en ingénierie et en apprentissage machine, et de développeurs logiciels solides et chevronnés. Nos collaborateurs apprécient nos connaissances techniques approfondies, notre capacité à fournir des composants logiciels faciles à intégrer et les résultats et modèles de pointe que nous pouvons fournir à partir de leurs données.

Nous prenons en charge les technologies de traduction et autres technologies langagières, de l'étape de la conception jusqu'aux produits adaptés aux distributeurs et aux utilisateurs finaux. Parmi les exemples de technologies langagières que nous avons mises au point et livrées, citons l'alignement des mots pour l'extraction terminologique, la traduction automatique statistique pour la compréhension linguistique et la similarité sémantique translinguistique pour la détection d'erreurs de traduction.

Concours internationaux et tâches partagées

Notre équipe participe régulièrement aux tâches d'évaluations de la Conference on Machine Translation (colloque annuel sur la traduction automatique, anciennement Workshop on Machine Translation, ou WMT), où elle obtient d'excellents résultats. Nous sommes également des participants réguliers aux ateliers internationaux sur l'évaluation sémantique (SemEval), à la série d'évaluations sur la discrimination des langues similaires et aux évaluations sur l'identification de la langue maternelle.

Résultats de l'équipe à WMT 2019 (en anglais seulement)

Résultats de l'équipe à WMT 2018

Résultats de l'équipe à SemEval

Résultats de l'équipe TMT en discrimination des langues similaires

Résultats de l'équipe TMT en identification de la langue maternelle

Membres de l'équipe

Aidan Pine
Anna Kazantseva
Chi-kiu (Jackie) Lo
Cyril Goutte
Darlene Stewart
Eddie Santos
Éric Joanis
Gabriel Bernier-Colborne
Marc Tessier
Michel Simard
Patrick Littell
Rebecca Knowles
Roland Kuhn
Samuel Larkin
Serge Léger
Sowmya Vajjala
Yunli Wang

Galerie d'images

Contactez-nous

Souhaitez-vous appliquer notre expertise en traitement multilingue de textes à votre projet? Contactez nos experts dès aujourd'hui!

Cyril Goutte
Chef d'équipe, Traitement multilingue de textes
Courriel : Cyril.Goutte@nrc-cnrc.gc.ca

Industries ciblées

Technologies de l'information et des communications; analyses et systèmes d'apprentissage

Emplacements

  • Moncton
  • Decelles, Montréal
  • Chemin de Montréal, Ottawa
  • Edmonton
  • Victoria