ConllEditor: éditeur pour les annotations syntaxiques dans le texte

ConllEditor est un outil qui facilite l’édition des relations syntaxiques et caractéristiques morphologiques des fichiers au format CoNLL-U (universaldependencies.org). Il utilise un serveur basé sur Java et un frontal basé sur HTML / CSS / Javascript. L’éditeur charge le fichier CoNLL-U et enregistre chaque modification sur un disque (et effectue une validation git si le fichier est sous contrôle de version git).

CoNLL-U est un format Stanford utilisé pour annoter les textes dans la syntaxe (notamment les arbres de dépendance). Les textes annotés peuvent être utilisés pour des tâches d’apprentissage automatique en Traitement Automatique du Langage Naturel. Les outils permettent d’éditer facilement les arborescences syntaxiques dans un navigateur Web.

L’éditeur fournit les fonctionnalités suivantes:

  • édition de mots (formes, lemmes, upos, xpos, fonctionnalités, dépendances améliorées)
  • édition des relations de dépendance
  • joindre / séparer des mots (pour corriger les erreurs de tokénisation)
  • joindre / séparer des phrases (pour corriger les erreurs de tokénisation)
  • annuler / rétablir (partiellement)
  • soutien git

Ce logiciel est sous licence BSD 3-Clause. ConllEditor est maintenant disponible sur Orange-Opensource Github.

 

ConllEditor interface- capture d’écran