Samuel Larkin

Rôles et responsabilités

Je suis agent de recherches adjoint au sein de l’équipe Traitement multilingue de textes du Centre de recherche en technologies numériques (TN) du Conseil national de recherches du Canada (CNRC).

Recherche et / ou projets en cours

* À l’aide de Common-Voice, créer une interface Web pour enregistrer des extraits audio basés sur des phrases prédéfinies dabs le cadre de notre projet sur les technologies pour les langues autochtones.

* Mise en œuvre de la version 2 de YiSi, une mesure automatique servant à évaluer les traductions automatiques.

* Comment manipuler correctement le balisage XML en traduction automatique neuronale pour un projet avec la Chambre des communes du Canada.

* Comment utiliser au mieux des termes fixes (banque de terminologie) pendant la traduction automatique neuronale.

Études

* Maîtrise en traduction automatique statistique (traitement du langage naturel), Université du Québec en Outaouais, 2004-2006

* Baccalauréat en sciences informatiques, Université de Sherbrooke, 1997-2000

Activités professionnelles / intérêts

* Traduction automatique neuronale

* Réseaux neuronaux liés au traitement du langage naturel

* Curieux de nature, je suis toujours prêt à relever des défis intéressants.

Prix

Prix pour réalisations liées à la propriété intellectuelle du CNRC (2021)

* NIST OpenMT 2012 : 1re place en traduction du chinois à l’anglais, 2e place en traduction de l’arabe à l’anglais

* TRAD 2014 : 1re place en traduction de l’arabe au français

* Conference on Machine Translation (WMT) 2016 : 2e place en traduction de nouvelles du russe à l’anglais

* WMT 2017 :

    * À égalité pour la 1re place en traduction du russe à l’anglais, 4e place en traduction du chinois à l’anglais.

    * Corrélation à l’échelle de la phrase pour l’évaluation de la traduction de nouvelles, 1re place pour l’évaluation du chinois et du russe (à partir de l’anglais), à égalité pour la 1re place pour l’évaluation de séries d’essais en tchèque, en allemand, en finnois, en letton, en turc (à partir de l’anglais) et 5e place sur 7 pour des séries d’essais en anglais (à partir du tchèque, de l’allemand, du letton, du russe et du chinois), donc 1er dans 12 séries d’essais sur 14.

    * Corrélation à l’échelle de la phrase pour l’évaluation de la traduction de textes médicaux, 1re place (avec une bonne longueur d’avance!) pour l’évaluation de toutes les langues testées : tchèque, allemand, polonais et roumain à partir de l’anglais.

    * Corrélation à l’échelle du système pour l’évaluation de la traduction de nouvelles, 1re place pour l’évaluation du letton et du russe (à partir de l’anglais).

* WMT 2018 :

    * Corrélation à l’échelle de la phrase pour l’évaluation de la traduction de nouvelles, à égalité pour la 1re place pour l’évaluation de toutes les langues testées (à partir de l’anglais) et 4e place sur 7 pour les séries d’essais en anglais (à partir du tchèque, du russe, du turc et du chinois), donc 1er dans 11 séries d’essais sur 14.

    * Corrélation à l’échelle du système pour l’évaluation de la traduction de nouvelles, 1re place pour l’évaluation de l’anglais vers le russe et du turc à partir de l’anglais et vers l’anglais.

    * Filtrage du corpus textuel, 4e place pour l’évaluation de 100 millions de mots filtrés, 8e place pour l’évaluation de 10 millions de mots filtrés, 6e place au total. L’une des quatre seules candidatures ayant obtenu des résultats dans les 10 premiers dans les deux formats d’évaluation (sur un total de 48 candidatures).

* WMT 2019 : Nous avons participé à la piste de traduction kazakh-russe-anglais. Pendant cette compétition, j’ai grandement modifié Sockeye (traduction automatique neuronale) pour intégrer une idée nouvelle consistant à utiliser de multiples sources pour traduire une phrase source. Nous nous sommes classés 4e pour la traduction du kazakh vers l’anglais.

* WMT 2020 : J’ai participé à deux pistes à faibles ressources, allemand–haut-sorabe et inuktitut-anglais. Notre système ANG-IU a obtenu la 1re place pour les systèmes restreints en matière de BLEU. Notre système ANG-IU a obtenu la 3e place pour tous les systèmes en matière de BLEU. Nous sommes arrivés en 2e place pour la traduction haut-sorabe–allemand et 3e pour allemand–haut-sorabe.

J’ai aussi aidé une membre de l’équipe avec sa tâche d’estimation de la qualité.

* AmericasNLP 2021 : Nous avons participé à une tâche de traduction à faibles ressources de l’espagnol vers le wixárika, le nahuatl, le raramuri et le guaraní. Nos résultats ont fait en sorte que nos présentations nous ont continuellement valu d’être la 2e meilleure équipe (derrière les 2-3 meilleures présentations d’Helsinki) dans le groupe de séries avec développement et la 2e ou 3e meilleure équipe (2e, 3e ou 4e présentation) dans le groupe de séries sans développement mesuré par chrF.

* WMT 2021 : Nous avons participé dans les catégories TA non supervisée et TA supervisée à très faibles ressources, bas-sorabe de et vers l’allemand et haut-sorabe de et vers l’allemand, où nous avons obtenu la première place ou la première place à égalité. Citation tirée des résultats « Les équipes ayant eu le plus de succès étaient celle du CNRC-NRC, qui était la meilleure ou à égalité avec la meilleure dans toutes les tâches en sorabe ».

Principales publications

Samuel Larkin

Agent(e) du Conseil de recherche, Apprentissage profond
Technologies numériques
1200, chemin de Montréal
Ottawa, Ontario K1A 0R6
Langue préférée : français
Téléphone : 613-993-0685

Expertise

Technologie de l'information, Intelligence artificielle, Apprentissage profond, Traitement du langage naturel, Ordinateur