Le problème de Novel Class Discovery (NCD) consiste à essayer de découvrir de nouvelles classes dans un ensemble non étiqueté, étant donné un ensemble étiqueté de classes différentes mais apparentées. Pour interpréter les résultats des algorithmes de clustering ou de NCD, les data scientists doivent comprendre les attributs des données tabulaires spécifiques au domaine et à l’application. En pratique, cette tâche leur est difficile et ne peut souvent être réalisée que par un expert du domaine.
Grâce à cette interface, les experts du domaine peuvent facilement exécuter des algorithmes NCD pour découvrir des classes dans leurs données tabulaires formatées en CSV. Sans écrire de code, et avec des connaissances minimales en data science, des clusters peuvent être générés et interprétés sous la forme d’arbres de décision. Actuellement, 3 modèles de NCD et 2 algorithmes de clustering non supervisés sont implémentés : PBN, TabularNCD, un modèle baseline, k-means et Spectral Clustering.
Cette interface a été présentée dans la demo track de la conférence ECML PKDD 2023. Le replay de la soutenance de thèse est accessible sur YouTube.