Vers la reconnaissance automatique de la parole dans des enregistrements audio de langues autochtones

 

On possède des dizaines de milliers d'heures d'enregistrement dans les langues autochtones. Malheureusement, la plupart de ces enregistrements n'ont été ni annotés ni indexés, si bien que la recherche par mots-clés est impossible. Le Centre de recherche informatique de Montréal et d'autres partenaires ont développé des technologies d’identification de langue et de segmentation de la parole afin de faciliter l'annotation d’enregistrements et ultimement, permettre la reconnaissance automatique de la parole.

Le travail s'est d’abord concentré sur l'inuktitut et le cri, et ensuite sur le tsuut'ina, le michif, le dénésuline, et l’innu. L’exploration des propriétés de différentes langues fait en sorte que les outils créés pourront s'appliquer à un vaste ensemble de langues autochtones.

Collaborateurs

Centre de recherche informatique de Montréal (CRIM)

Le Centre de recherche informatique de Montréal (CRIM) jouit depuis longtemps d'une renommée enviable grâce à ses réalisations dans les techniques de reconnaissance de la parole. Sa technologie d'indexation du contenu audio crée un catalogue du contenu parlé de très grandes bases de données audio, qu'il est ensuite possible de consulter au moyen d'un moteur de recherche. Le CRIM a notamment appliqué cette technique aux archives de l'Office national du film (ONF) ainsi qu'aux témoignages de la Commission Bastarache. La technologie de reconnaissance du locuteur conçue par le CRIM, qui identifie celui ou celle qui prend la parole à tel ou tel moment, se range toujours parmi les meilleures lors des évaluations internationales. On l'utilise désormais partout dans le monde.

Société Radio-Canada – cri de l’est de la Baie-James

La Société Radio-Canada (SRC) diffuse des émissions destinées aux Autochtones ou conçues par eux. Elle fournit des services dans huit langues autochtones/inuits et conserve une mine d'enregistrements sonores dans ces langues.

Centre Pirurvik – inuktitut

Le Centre Pirurvik (en anglais seulement) est un centre d'excellence spécialisé dans la langue, la culture et le bien-être inuits. Fondé à l'automne 2003, il a son siège à Iqaluit, capitale du Nunavut. Le Centre sélectionne les enregistrements sonores dans la langue d'origine en fonction de la richesse du vocabulaire, en s'assurant que le locuteur ne « pense pas en anglais », puis les retranscrit.

  • Prairie to Woodland Indigenous Language Revitalization Circle (P2WILRC) - michif
  • CKAU-Kushapetsheken – innu
  • Missinipi Broadcasting Corporation - dénésuline
  • Université Carleton, School of Linguistics and Language Studies

Objectifs

  • Améliorer l’accès aux enregistrements audio et retranscrire fidèlement les enregistrements en langues autochtones
  • Créer des technologies pour segmenter les enregistrements et les annoter plus facilement
  • Développer des technologies de reconnaissance automatique de la parole pour des langues autochtones: l’inuktitut, le cri de l’est, l’innu, et le dénésuline

Produits livrables

  • Reconnaissance automatique de la parole en inuktitut, cri de l’est, innu, et dénésuline
  • Outils pratiques hébergés sur ELAC pour faciliter l’organisation et la transcription de parole (fichiers audio)

Activités

Matériel audio en cri de l’est de la Baie-James – 2018-2020

La SRC a mis les enregistrements en cri de l'est de la Baie-James à la disposition du CRIM pour qu'il développe les outils de segmentation et de reconnaissance automatique de la parole destinés aux fichiers audio en langues autochtones. Ainsi, la SRC a remis au-delà de 1 343 heures d'émissions radiophoniques diffusées par CBC North entre janvier 2015 et décembre 2016. Ces 1 312 fichiers contiennent des dialogues et de la musique de qualité studio ou téléphonique ont été indispensables à la réussite du projet.

Production et édition de 75 heures de parole inuktut 2018-2019

Le Centre Pirurvik a sélectionné des enregistrements en inuktut selon la richesse du vocabulaire, en s'assurant que le locuteur ne « pense pas en anglais » quand il parle, puis les a transcrit. Le CRIM a utilisé les transcriptions en inuktut pour créer les outils de reconnaissance de la parole et de segmentation audio en inuktut.

Annotation et alignement d’enregistrements audio de narratifs en tsuut’ina 2019-2020

Christopher Cox de l'Université Carleton et l'aîné tsuut'ina Bruce Starlight ont recueilli 25 à 30 heures d'enregistrements audio de qualité studio de matériel textuel et lexical tsuut'ina, lus par Bruce Starlight. Ils ont produit des transcriptions bilingues alignées de tous les enregistrements audio et une publication illustrée de certains récits enregistrés, à distribuer à la nation Tsuut'ina et à archiver avec le musée Tssu'tina à long terme.

Développement de ressources lexicales pour le michif 2019-2020

Olivia Sammons de l'Université Carleton et Verna DeMontigny du Woodlands to Prairie Indigenous Language Revitalization Circle ont recueilli des enregistrements audio et une base de données d'accompagnement de matériel lexical michif représentant 350 pages ou environ 25 heures d'audio, ainsi que leurs transcriptions dans ELAC. Tout le matériel du projet sera déposé auprès du Woodlands to Prairie Indigenous Language Revitalization Circle, d'autres organisations communautaires, et des éducateurs en langue michif.

Segmentation de la parole pour une annotation plus facile des données 2018-2019

De concert avec les spécialistes en langues autochtones, les membres de l'équipe du CRIM ont déterminé quels outils ils devaient prioriser. Le CRIM a ensuite mise au point des outils simples qui segmentent la parole enregistrée.

  • La détection d'une activité vocale (« voice activity detection ») sépare les fichiers en sections parlées et non parlées. Le CRIM a mis au point puis testé un détecteur s'appuyant sur un réseau de neurones profond qu'il a formé grâce à de très nombreuses séquences parlées dans diverses langues (figure 1).
  • Le repérage du locuteur (« speaker retrieval ») permet de retrouver les segments d'un enregistrement où un locuteur donné parle, peu importe sa langue, à partir d'un court échantillon de sa voix (recherche par l'exemple). Le CRIM a développé un système qui recourt aux i-vecteurs et a entrepris de le perfectionner par apprentissage profond.
  • La segmentation en locuteurs (« speaker diarisation ») distingue les intervenants dans une conversation, peu importe la langue.
  • La séparation multicanale est destinée aux entrevues linguistiques où plusieurs locuteurs portent chacun un microphone rapproché.
  • La recherche de langue (« language retrieval ») distingue l'inuktitut et le cri de l'Est parmi 32 langues à partir d'un échantillon de cinq secondes. Permet également de retrouver les segments dans une langue donnée au sein d’un enregistrement.
""

Figure 1. Segmentation automatique dans le logiciel d'annotation linguistique ELAC

Vers la reconnaissance automatique de la parole pour les langues polysynthétiques

La plupart des langues autochtones parlées au Canada, y compris l'inuktut et le cri, sont polysynthétiques. Un mot typique est composé d'environ 7 à 10 petits morceaux appelés morphèmes. Parce que tant de combinaisons différentes de morphèmes sont possibles, la majorité des mots dans un texte ou un discours donné n'ont jamais eu lieu auparavant dans l'histoire de la langue. Ceci pose de grandes difficultés pour la reconnaissance automatique de la parole. Ces systèmes s'appuient sur des mots qu'ils ont déjà « entendus » dans les données d'entraînement acoustique. Avec les langues polysynthétiques, le système n'a jamais entendu la plupart des mots qu'il rencontrera dans un nouvel enregistrement.

Les expériences du CRIM sur la reconnaissance automatique de parole pour l'inuktut et le cri de l'Est se sont concentrées sur la détermination de la meilleure unité pour la modélisation acoustique : les morphèmes, les syllabes, des unités hybrides, combinées à des modèles de fréquence des mots? Ils ont également étudié deux systèmes différents : ceux entraînés à reconnaître la parole d'une variété de locuteurs (indépendants du locuteur) et ceux entraînés à reconnaître la parole d'un locuteur particulier (dépendant du locuteur). Les chercheurs du CRIM ont fait d'importants progrès et ont augmenté la précision de la reconnaissance automatique de la parole pour l'inuktut et le cri de l'Est. Bien que les deux soient polysynthétiques, ces langues ne sont pas liées et sont très différentes phonétiquement. Ceci implique que les conclusions tirées des deux ensembles d'expériences peuvent s'appliquer à d'autres langues polysynthétiques. Les expériences sont décrites en détail dans les publications ci-dessous.

Diffusion des outils de segmentation audio à la collectivité, aux linguistes et aux chercheurs

Les outils de segmentation audio élaborés dans le cadre du projet sont offerts au moyen des deux plateformes que voici, de manière à répondre aux besoins des Autochtones, des linguistes et des chercheurs.

  • VESTA, une plateforme de travail collaboratif, mise en point par le CRIM en partie grâce au financement du programme CANARIE pour les logiciels de recherche, qui donne accès à des services de traitement avancés de contenus multimédia hébergés sur des serveurs du réseau CANARIE.
  • ELAN, un logiciel libre du Max Planck Institute servant à l'annotation de corpus oraux, largement utilisé en linguistique et en documentation des langues, efficace pour l'annotation manuelle sur un ordinateur individuel.

Le CRIM a conçu un module d'extension pour ELAN, facile à télécharger, qui donne accès à l'ensemble des services dispensés sur la plateforme VESTA. Ainsi, de nombreux partenaires pourront se servir des outils de VESTA dans l'interface ELAN, qui leur est familière, pour collaborer à la création d'un corpus.

À mesure que progresse le projet, l'équipe espère enrichir le module d'extension VESTA-ELAN avec d'autres services comme la concordance du texte et de la parole et la recherche de mots-clés, ce qui débouchera éventuellement sur le développement d'applications numériques pour la parole.

Publications

Notre équipe de projet

  • Gilles Boulianne, Chercheur sénior, Traitement automatique de la parole, Centre de recherche informatique de Montréal
  • Vishwa Gupta, Chercheur sénior, Traitement automatique de la parole, Centre de recherche informatique de Montréal
  • Christopher Cox, Professeur associé, Applied Linguistics and Discourse Studies, Université Carleton
  • Olivia Sammons, Professeure adjointe, School of Linguistics and Languages Studies, Université Carleton

Contactez-nous

Antonia Leney-Granger, agente de communications
Centre de recherche informatique de Montréal
Téléphone : 514-840-1234
Courriel : medias@crim.ca

Roland Kuhn, chef du projet
Technologies pour les langues autochtones
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca
LinkedIn : Roland Kuhn

Liens connexes