Lors de son intervention en juin 2025 pour la OW2 con’25, Jean-Pierre LORRÉ, notre directeur de la recherche a présenté une démarche singulièrement engagée pour une IA véritablement open source. À travers le développement de notre modèle LUCIE 7B, nous souhaitons répondre à des enjeux cruciaux de souveraineté technologique, de représentativité culturelle et de transparence.
Revenir aux fondamentaux : qu’est-ce qu’une IA open source ?
La définition actuelle d’une intelligence artificielle open source s’organise autour des quatre libertés fondatrices :
- Utiliser librement le système,
- Étudier son fonctionnement,
- Modifier son code,
- Partager les versions modifiées.
Appliquée à l’IA, cette définition implique la mise à disposition non seulement du code source, mais aussi des poids du modèle, du code de pré-entraînement et surtout des données utilisées.
Selon cette définition, de nombreux modèles dits « ouverts » ne sont pas réellement open source. Jean-Pierre LORRÉ cite notamment LLaMA de Meta et Mistral, qui bien que distribués avec des poids accessibles, ne rendent pas publics leurs jeux de données ni leurs licences véritablement permissives. Résultat : une opacité qui freine l’auditabilité, la reproductibilité et la réutilisation libre.
L’ADN de LINAGORA : promouvoir une IA libre et éthique
Depuis plus de 25 ans, nous nous sommes imposés comme un pilier du logiciel libre en France. Notre implication dans le domaine de l’intelligence artificielle découle naturellement de cette culture :
« Notre motivation est de favoriser une intelligence artificielle réellement open source »
Ce positionnement s’est concrétisé par la création de la communauté OpenLLM, une initiative collaborative rassemblant chercheurs, entreprises et passionnés autour de modèles de langage ouverts. Le modèle LUCIE 7B s’inscrit dans cette logique, avec un engagement affiché à respecter tous les critères de l’open source.
LUCIE 7B : un modèle ouvert, transparent et souverain
Le projet LUCIE 7B a été conçu avec un objectif de transparence maximale. Tous les composants nécessaires à la reproduction du modèle sont disponibles :
- Poids du modèle,
- Code de pré-entraînement,
- Description des jeux de données utilisés,
- Modèle de tokenisation,
- Et documentation complète sur Hugging Face
De plus, l’approche privilégie une forte présence de la langue française (plus de 30 % du dataset initial), répondant à une autre motivation forte : lutter contre l’hégémonie linguistique et culturelle des grands modèles majoritairement anglophones.
« Une langue n’est pas qu’un outil : elle véhicule une culture, une histoire, une cuisine, une vision du monde »
Pourquoi cela compte ?
Dans un contexte de croissance rapide des modèles d’IA, l’open source constitue un garde-fou démocratique et éthique. Sans accès aux données d’entraînement, aux méthodes de prétraitement, ou aux mécanismes d’alignement, les utilisateurs n’ont aucun moyen de comprendre, corriger ou adapter les systèmes qu’ils utilisent.
Nous souhaitons démontrer ici qu’il est possible de produire des modèles puissants, respectueux des principes du libre, et adaptés à des contextes locaux tout en utilisant les meilleures technologies disponibles (512 GPU H100 via Jean Zay, Megatron/DeepSpeed, etc.).
Avec LUCIE 7B nous voulons prouver qu’il est possible de développer une IA éthique, ouverte, souveraine et performante. Mais cela nécessite de la volonté, des moyens publics (comme le soutien de France 2030), et une mobilisation collective de la communauté open source.
À l’heure où l’IA façonne nos sociétés, il est plus que jamais nécessaire de défendre un modèle technologique basé sur la transparence, l’inclusion et la liberté.

