Deux nouvelles librairies étaient publiées au GitHub Orange-OpenSource:
- Lexical-corrector – une librairie C++ et un package java pour accès rapide au lexique et la correction (basée sur la distance de Levenshtein). Elle permets de definir la distance de Levenshtein en fonction de l’erreur typographique ( diacritique, lettres minuscules/capitales, touches voisines).
- Text-tokenizer – une librairie C++ pour la segmentation du texte brut (UTF-8) aux zones de texte (tokens) en utilisant les expressions régulières. Cette fonctionnalité est une base pour presque toutes les approches au Traitement automatique du langage naturel (Natural Language Processing, NLP). La libraire a un API simple et elle comprend un ficher avec des règles définissant les types de tokens et des expressions régulières à utiliser.
C’est une contribution à la communauté NLP ainsi qu’aux associés académiques d’Orange. L’auteur des deux librairies est Johannes Heinecke d’Orange Labs Services. Elles sont disponible sous la licence 3-Clause BSD.