Fil d'Ariane
JDN - Michel-Marie MAUDET répond au JDN sur les IA génératives
Sous la plume de Benjamin Polge, du média le Journal du Net, Michel-Marie Maudet, Directeur Général et Co-fondateur de LINAGORA est revenu sur l’utilisation de benchmarks pour évaluer les modèles d’intelligence artificielle.
La course biaisée aux benchmarks des LLMs
Aujourd’hui, les modèles comme ChatGPT suscitent l'intérêt de nombreux acteurs de notre société. Ces IA, capables de générer du contenu de manière quasi humaine, sont évaluées à l'aide de benchmarks censés mesurer leurs performances. Toutefois, une analyse plus poussée révèle que ces évaluations ne sont pas aussi fiables qu'elles en ont l'air.
Les modèles d’IA sont au cœur d'une compétition intense, avec la publication régulière de nouveaux modèles affichant des performances toujours plus impressionnantes. Pourtant, certains s'accorde à dire que les résultats des benchmarks comme MMLU, HumanEval, MATH, conçus pour évaluer ces performances, sont souvent trompeurs. Pourquoi ?
La transparence des benchmarks : un atout détourné
Le problème principal réside dans la transparence des données de test des benchmarks. C'est cette ouverture qui permet d'optimiser les modèles spécifiquement pour ses tests, faussant ainsi les résultats.
Benjamin confirme dans son article :
"Le principal biais des benchmarks vient de leur mode de conception même. Leur point fort est également leur plus grand point faible : la transparence des données de test."
L’accès à ses données test peut influencer la manière dont seront testés les modèles. En effet, ses modèles subissent fréquemment un alignement ciblé en fin de pré-entraînement, une phase appelée « handling », sans que cela soit explicitement appelé fine-tuning. Cela consiste à exposer le modèle de manière stratégique aux données des benchmarks.
Michel-Marie, précise :
"Par exemple, pour le MMLU avec ses 16 000 questions, si on en utilise 3 000 à 4 000, il y a de fortes chances que le modèle performe bien lors des tests, puisque les benchmarks sont ensuite tirés aléatoirement."
La course à l'optimisation : un jeu stratégique
Ainsi, les développeurs peuvent utiliser ce genre de techniques pour booster les performances de leur modèle, en intégrant des données synthétiques et en ajustant le modèle pour répondre à un jeu de données spécifique.
Les recherches révèlent qu'une simple exposition aux données de benchmark en fin de pré-entrainement peut artificiellement booster les scores des MMLU (Massive Mulitask Language Understanding) de 10 à 12%, sans réelle amélioration des capacités intrinsèques du modèle.
Pour illustrer ce phénomène :
"Le modèle Phi de Microsoft se classe toujours très haut sur MMLU mais dans les faits, lorsqu'on l'utilise en conditions réelles il n'est pas forcément meilleur."
Manuel Faysse, doctorant au MICS de CentraleSupélec et spécialiste des modèles de NLP, ajoute :
Lorsque de nouvelles évaluations apparaissent, certains modèles montrent qu'ils ont été un peu trop optimisés pour des datasets spécifiques
Même constat pour les benchmarks dynamiques et multilingues
Les benchmarks dynamiques, où les évaluations sont faites par des humains, ne sont pas exempts de biais. Par exemple, le chatbot de LMSys, qui repose sur l'évaluation humaine, montre une préférence pour les longues réponses, même si elles ne sont pas toujours meilleures en contenu.
Un autre problème soulevé dans les modèles multilingues, notamment en France, est l'absence de benchmarks spécifiques pour d'autres langues que l'anglais.
" Bien qu'on puisse supposer qu'un modèle performant en anglais le sera aussi dans d'autres langues, cette hypothèse n'est pas toujours vérifiée "
souligne Michel-Marie Maudet.
Quels critères pour choisir un modèle de langage ?
Si les benchmarks ne sont qu'une approximation des capacités des modèles, comment faire son choix ? Manuel Faysse conseille de ne pas se fier uniquement aux scores des benchmarks : "Le mieux est de faire du benchmarking privé. Une fois que vous avez défini votre cas d'usage, testez chaque modèle en fonction de vos propres critères adaptés à vos besoins."
Pour des usages moins critiques, choisir un modèle performant dans les benchmarks généraux peut être efficace. Ces modèles sont souvent polyvalents et adaptés à une variété d'applications courantes, mais il est crucial de garder à l'esprit que leurs performances réelles peuvent varier selon les situations.