Les modèles de langue encodent des connaissances factuelles dans leurs paramètres. Dans la littérature, la détection de ces connaissances repose souvent sur des phrases à trous (par exemple, « La capitale de la France est ____ »), ce qui peut conduire à des conclusions erronées en raison de la complexité du langage naturel (continuations hors sujet par le modèle, existence de nombreuses réponses correctes et les différentes manières de les exprimer). Dans ce travail, nous introduisons une nouvelle méthode d’évaluation des connaissances interprétable, qui atténue ces problèmes en exploitant les distracteurs, qui sont des alternatives incorrectes mais plausibles à la bonne réponse, que nous utilisons pour créer un « QCM automatique pour modèles de langue ». Nous proposons plusieurs stratégies pour récupérer les distracteurs et déterminer la plus efficace par l’expérimentation. Notre méthode est évaluée par rapport aux approches existantes, démontrant un alignement solide avec le jugement humain et une plus grande robustesse aux artefacts de verbalisation.
Les utilisateurs de ce projet pourront :
- Mesurer la connaissance d’un fait spécifique par un modèle de langue
- Reproduire les expériences de notre article
- Comparer les stratégies de récupération des distracteurs
- Évaluer notre mesure de connaissance et nos bases de référence par rapport à leur alignement avec le jugement humain et leur robustesse aux erreurs de verbalisation
Le code source est disponible sur GitHub, sous licence GPL2.