Vers un apprentissage efficace de la représentation auto-supervisée dans le traitement de la parole

Les modèles de traitement de la parole sont souvent gourmands en ressources computationnelles, ce qui a des impacts environnementaux importants. En cause, des consommations énergétiques trop élevées pendant leur entraînement. ESSL (ou Apprentissage Auto-Supervisé Efficient en français) est un modèle de traitement de la parole proposé pour faire face à ce défi. Il permet une réduction des coûts computationnels très conséquent, car il n’utilise qu’une carte graphique pendant seulement 28 heures, une amélioration, qui peut représenter jusqu’à cent fois moins des ressources computationnelles par rapport aux modèles existants. Son code source est disponible sur GitHub, sous licence Open Source MIT.