Article original en anglais de Julie Hunter, chercheuse senior en linguistique et NLP, pour le département R&D de LINAGORA.
Chez LINAGORA, l’équipe R&D travaille actuellement sur plusieurs projets en parallèle ; mais nous y reviendrons dans un autre article ! Aujourd’hui, nous avons toutefois choisi de nous arrêter sur celui qui concentre l’essentiel de notre énergie : OpenLLM France. De nouveaux modèles de langage seront publiés dans les prochaines semaines, c’est donc le moment idéal pour vous expliquer, ou vous rappeler, en quoi consiste ce projet.
Un peu d’histoire…
Fin 2022, les LLM (Large Language Models) connaissent une accélération spectaculaire. Pour la première fois, des modèles très performants deviennent accessibles au grand public, capables de comprendre et de produire du texte, mais aussi de traiter la parole. Pour LINAGORA, les perspectives sont évidentes : résumé automatique de réunions, analyse intelligente de documents… Cependant, l’enthousiasme laisse rapidement place à des interrogations plus profondes. Ces modèles reposent sur des volumes massifs de données collectées sur le web, ne respectant bien souvent pas les droits de propriété intellectuelle. Ils intègrent également des contenus problématiques, parfois toxiques. Surtout, ils sont entraînés quasi exclusivement sur des données anglophones... Ce qui engendre mécaniquement des biais culturels et des représentations du monde largement anglocentrées. Enfin, et c’est sûrement le pire, ces modèles sont fermés et leurs données ne sont pas accessibles. Il devient alors impossible de construire des alternatives réellement alignées avec ce que nous défendons.
Face à ce constat, il nous est apparu essentiel de concevoir des LLM véritablement open source, dont les données d’entraînement sont connues et dans lesquels la langue française occupe une place centrale. Pour y parvenir, nous avons fédéré autour de nous de nombreux acteurs à l’échelle nationale. Cette dynamique collective a conduit en 2023 à la création de la communauté OpenLLM France. En septembre 2024, le projet franchit une nouvelle étape avec son lancement officiel, soutenu par un financement de Bpifrance sur 2 ans.
Aujourd’hui, LINAGORA se positionne ainsi comme un acteur singulier en Europe, capable de développer des LLM ouverts, multilingues et conçus en tenant compte des réalités linguistiques et culturelles locales.
L’ambition d’OpenLLM France
OpenLLM France s’inscrit dans une logique de contribution aux communs numériques. Notre démarche repose sur un principe simple : rendre accessibles les briques essentielles de l’IA pour renforcer l’autonomie technologique de la France et, plus largement, de l’Europe.
Concrètement, cela signifie :
- créer et améliorer des corpus d’entraînement en français pour limiter les biais anglocentrés ;
- publier ces jeux de données sous licences ouvertes, dans des formats directement exploitables ;
- mettre à disposition les poids des modèles, aussi bien dans leur version finale qu’à différentes étapes de l’entraînement ;
- ouvrir le code utilisé pour préparer les données, entraîner les modèles et les évaluer.
Notre engagement en faveur de l’open source s’accompagne d’une attention particulière portée au respect des droits de propriété intellectuelle des créateurs de contenus, dans le cadre défini par les réglementations européennes. Cette exigence, couplée à notre volonté d’accorder une place significative au français, implique de renoncer à de vastes volumes de données anglophones de haute qualité, exploités par les modèles propriétaires. Nous sommes néanmoins convaincus que cette contrainte est largement compensée, à long terme, par les bénéfices d’une démarche fondée sur l’ouverture.
Au-delà de la cohérence avec nos valeurs, cette dynamique participe directement au renforcement de la souveraineté numérique. En rendant accessibles les briques essentielles de nos travaux, nous offrons aux acteurs du territoire les moyens de développer leurs propres modèles. Les équipes peuvent, par exemple, reprendre un entraînement à partir d’une étape intermédiaire, sans devoir repartir de zéro. Les chercheurs peuvent analyser plus finement comment les modèles acquièrent progressivement certaines compétences. Et surtout, la communauté évite de multiplier des efforts identiques, au profit de nouveaux axes de recherche.
Nos axes de recherche
Le projet OpenLLM France s’articule autour de plusieurs priorités majeures :
- Le multilinguisme : dans des domaines aussi sensibles que l’éducation ou la santé, les modèles doivent maîtriser les langues réellement utilisées sur le terrain. Nos recherches portent sur les meilleures méthodes d’entraînement et d’évaluation de modèles destinés à des cas d’usage nécessitant une expertise linguistique autre que l’anglais.
- La multimodalité : texte, voix, image : de nombreux usages nécessitent de combiner plusieurs formes d’information. En plus de développer des versions voix-texte des modèles OpenLLM, nous explorons, avec nos partenaires académiques, des approches plus avancées pour concevoir des assistants conversationnels multimodaux.
- L’éducation : l’IA a un rôle majeur à jouer dans l’éducation, à condition d’être pensée avec et pour les enseignants. Nous travaillons à la conception de modèles adaptés aux besoins pédagogiques réels, tout en menant des actions de sensibilisation sur les enjeux et les risques liés à l’usage de l’IA en contexte éducatif.
Heureusement, nous ne sommes pas les seuls à nous être lancés dans cette folle mais passionnante aventure ! Le projet OpenLLM France s’appuie sur des collaborations étroites avec de nombreux partenaires, parmi lesquels :
- CEA List : contribution à la création de nouveaux jeux de données en français ;
- LORIA : étude des bonnes pratiques de pré-entraînement et de post-entraînement ;
- IDRIS : accompagnement sur les problématiques d’entraînement et de débogage des modèles ;
- OpSci : alignement des réponses des modèles avec les préférences humaines ;
- LIX : développement de méthodes d’évaluation spécifiques au français ;
- Class’Code : coordination des interactions avec les EdTech et les académies françaises ;
- CEA et Sorbonne : analyse des impacts éthiques et juridiques du projet, ainsi que du développement des LLM en général ;
- Mens Data : quantification de l’impact environnemental de l’entraînement des modèles ;
- TALK’R : soutien à la production de jeux de données, notamment via des tâches telles que le web scraping.
Les publications de nos données et modèles arrivent dans les prochaines semaines. Ce n’est qu’un début. Vous n’avez pas fini d’entendre parler de nous !