Aperçu
YiSiNote de bas de page 1 est un logiciel ouvert qui évalue l'exactitude sémantique de phrases produites par des outils de traduction automatique. Pour cela, le logiciel utilise des corpus de plongements lexicaux pour évaluer la relation sémantique entre mots, et attribue une cote d'exactitude de 0 à 100 à chaque phrase traduite. Ce logiciel a été développé par le Centre de recherche en technologies numériques du Conseil national de recherches du Canada..
Utilisateurs cibles
- Développeurs de systèmes de traduction automatique
- Spécialistes en linguistique computationnelle
Avantages pour les utilisateurs
- Le logiciel YiSi peut mettre en évidence des problèmes de traduction automatique; il aide ainsi les développeurs à identifier les éléments qui doivent d'être améliorés.
- Il y a une forte corrélation avec les cotes attribuées par de véritables traducteurs à l'exactitude des phrases traduites, ce qui aide les développeurs à comparer et à évaluer les résultats de leurs systèmes de traduction automatique.
Exigences système
- YiSi a été développé pour l'environnement Linux.
- Le logiciel est écrit en langage C++ et nécessite une version de g++ compatible avec C++11; nous utilisons la version GCC 4.9.3.
- YiSi nécessite le programme Make; nous utilisons la version GNU Make 3.81.
- YiSi nécessite le programme Bash; nous utilisons la versionGNU Bash 4.1.2.
Description technique
YiSi est une famille de métriques d'évaluation sémantique de la traduction automatique (TA), articulée autour d'une architecture flexible permettant l'évaluation de traductions automatiques dans plusieurs langues ayant des quantités variables de ressources d'apprentissage. Inspiré du logiciel MEANT 2.0 (Lo, 2017), YiSi-1 évalue la similarité entre une traduction humaine et une sortie de traduction automatique en combinant des similarités pondérées de sémantique lexicale distributionnelle, et, de manière optionnelle, des structures sémantiques superficielles. YiSi-0 est une version épurée qui n'utilise aucune ressource et utilise la plus longue sous-chaîne commune au lieu de la sémantique distributionnelle pour évaluer la similarité lexicale entre traduction humaine et sortie de TA. Par contraste, YiSi-2 est une version bilingue qui ne nécessite pas de traduction de référence, mais repose sur des plongements lexicaux bilingues pour évaluer la similarité sémantique lexicale translinguistique entre la phrase source et une traduction automatique.
Lors d'évaluations internationales organisées à la troisième conférence sur la traduction automatique en 2018 (« WMT2018 », Ma et coll., 2018), YiSi-1 a obtenu la plus haute corrélation moyenne avec le jugement humain au niveau des systèmes, ainsi que la plus haute corrélation médiane au niveau des segments, pour toutes les paires de langues. YiSi-1 a aussi brillé sur la tâche de filtrage de corpus parallèles à la conférence WMT2018, et YiSi-2 a démontré une précision comparable pour la même tâche.
YiSi-0 est livré prêt pour évaluer toutes les langues. YiSi-1 a besoin d'un corpus monolingue dans la langue cible pour entraîner le modèle de sémantique lexicale distributionnelle. YiSi-1_srl, est conçu pour les langues riches en ressources linguistiques, pour lesquelles un outil d'étiquetage sémantique pour la langue cible est disponible. YiSi-2 nécessite un corpus de plongements lexicaux bilingues et YiSi 2_srl, un outil d'étiquetage sémantique automatique pour les langues source et cible.
Prix
Le logiciel YiSi est offert gratuitement à des fins de recherche et commerciales. Communiquez avec nous pour de plus amples renseignements.
Publications
- Chi-kiu Lo, Michel Simard, Darlene Stewart, Samuel Larkin, Cyril Goutte et Patrick Littell. Accurate semantic textual similarity for cleaning noisy parallel corpora using semantic machine translation evaluation metric: The NRC supervised submissions to the Parallel Corpus Filtering task. Third conference on Machine Translation (WMT 2018). Bruxelles, Belgique : novembre 2018.
- Chi-kiu Lo. MEANT 2.0: Accurate semantic MT evaluation for any output language. Second conference on Machine Translation (WMT 2017). Copenhague, Danemark : septembre 2017.
- Ma, Qingsong, Bojar, Ondrej et Graham, Yvette. Results of the WMT18 Metrics Shared Task: Both characters and embeddings achieve good performance. Proceedings of the Third Conference on Machine Translation, Volume 2: Shared Task. Bruxelles, Belgique, octobre 2018.
Télécharger YiSi et ses corpus de plongements lexicaux
Code principal utilisé pour évaluer les unités syntaxiques :
- Logiciel YiSi (en anglais seulement)
Corpus de plongements lexicaux actuellement supportés :
Corpus de plongements lexicaux actuellement supportés – accessibles dans le Dépôt numérique du CNRC
- Allemand
- Anglais
- Chinois, segmenté par l'outil Stanford
- Espagnol
- Estonien
- Finlandais
- Français
- Hindi
- Letton
- Polonais
- Roumain
- Russe
- Tchèque
- Turc
Contactez-nous
Renseignements techniques
Jackie Lo, agente de recherches
Téléphone : 613-993-0620
Courriel : Jackie.Lo@nrc-cnrc.gc.ca
Renseignements aux entreprises
Pierre Charron, Agent, Développement des affaires
Téléphone : 613-990-0336
Courriel : Pierre.Charron@nrc-cnrc.gc.ca