TimeStress

TimeStress est un ensemble de données conçu pour évaluer la représentation temporelle des faits dans les grands modèles linguistiques (LLM) en évaluant leur capacité à distinguer les énoncés factuels corrects et incorrects contextualisés avec une date et formatés sous forme de questions, telles que « En 2011, qui était le président des États-Unis ? Barack Obama ». Le principe d’évaluation est que la probabilité attribuée par le modèle à la bonne réponse devrait être plus élevée lorsque la date est exacte que lorsqu’elle ne l’est pas.

TimeStress comprend de nombreuses affirmations correctes et incorrectes, chaque date étant exprimée avec trois précisions différentes. Cela permet d’évaluer les LLM selon deux dimensions : en faisant varier la date sur la **chronologie** et en ajustant la **précision**.

Les résultats mettent en évidence plusieurs limites des LLM, notamment leur difficulté à acquérir une connaissance complète des faits temporels populaires et leur difficulté à transférer des connaissances à travers différentes précisions de date ; par exemple, un LLM peut reconnaître un fait lorsqu’on lui pose une question contextualisée avec des dates d’année (ex. 2020), mais échouer lorsque la question est formulée avec des mois spécifiques (ex. mars 2020).

Cette recherche a été publiée sous forme d’article pré-imprimé sur ArXiv, et l’objectif de ce référentiel est de reproduire les expériences.

Il contient le code nécessaire pour

  • Regénérer TimeStress à partir de zéro en utilisant un dump Wikidata et GPT-4o
  • Recueillir les prédictions de 18 LLM étudiés sur TimeStress
  • Analyser le comportement des LLM, pour tirer des conclusions sur la cohérence de leur représentation temporelle des faits. Les figures et les tableaux de l’article sont générés à cette étape

Code source disponible sur GitHub, sous licence MIT.