Documentare : une intelligence auxiliaire pour l’analyse du contenu numérique

Documentare est une bibliothèque logicielle écrite en Java dont le but est de proposer des outils de partitionnement (clustering non supervisé) de :

  • contenus dans un répertoire,
  • d’images résultant de la segmentation de documents numérisés dans le but de constituer des bases de référence pour la reconnaissance de caractères.

Le cœur technologique de cette bibliothèque est une mesure de distance évaluant le degré de similarité entre deux chaines d’octets, quelle que soit l’information codée. Cette mesure est donc universelle et peut s’appliquer à une large variété de contenus sous réserve d’un alignement de codage suffisant.

Associé à ces outils, on trouve une méthode de détection et de segmentation en caractère du texte dans une image de document et l’outil de clustering à proprement parlé (pour une description plus technique, voir README.md du site). Le code est publié sous GNU General Public License v2.0.