Retour sur l'intervention de Jean-Pierre LORRÉ à l'IMA

Retour sur l'intervention de Jean-Pierre LORRÉ à l'IMA

LUCIE7B, un petit modèle, mais avec de grande ambition.

« Nous sommes un gros poisson qui est fait de petits poissons en s'unissant et en diffusant sous forme ouverte à la fois les données et les modèles, nous pouvons arriver à des solutions comparables avec celles de nos grands compétiteurs qui ont des moyens comparablement plus importants que nous. »

Notre Research Director Jean-Pierre LORRE est intervenu lors du IMA - Innovation Makers Alliance pour une présentation exclusive sur "LUCIE, le LLM open source français : enjeux, mise en œuvre et roadmap"

LUCIE notre IA opensource est un modèle de 7 milliards de 
paramètres, mais ne vous fiez pas à sa taille :

  •  Ces modèles sont moins gourmands en calcul.
  • Ils atteignent souvent des performances similaires, voire meilleures, sur des tâches ciblées.


Pour obtenir un modèle performant en IA, deux éléments sont essentiels : la quantité et la qualité des données. Mais il y a un facteur fréquemment négligé… la langue des données !
Nous avons entraîné un modèle avec une forte présence de données françaises :

  • 40 % des données sont en français
  • 25 % en anglais

Et le reste réparti entre l’allemand, l’italien et l’espagnol 
Pour donner un ordre d’idée, ChatGPT ne contient que quelques pourcentages de données en français.

Miser sur des données francophones, c’est garantir une IA plus pertinente, plus souveraine, et mieux alignée avec nos usages linguistiques