NEC 2024
Retour sur l'intervention de Michel-Marie Maudet, Directeur Général et Co-Fondateur de LINAGORA, à l'initiative de la création de la communauté OpenLLM France, lors de la 7ᵉ édition du Numérique en Commun (NEC) à Chambéry. NEC c'est "LA" rencontre incontournable pour tous les acteurs du numérique autour de sujets clés tels que l'inclusion numérique, la souveraineté des données, l'écologie numérique et les communs numériques. L’objectif est de promouvoir un numérique plus inclusif, durable et éthique.
Deux jours très riches et intenses où se jouait en parallèle ateliers, masterclass, tables rondes et plénières, rassemblant plus de 300 intervenants du monde de l'industrie du numérique, élus et collectivités, chercheurs et associations pour réfléchir aux enjeux du numérique sur nos territoires. Un programme inspirant imaginé par l'Institut National de l'Information Géographique et Forestière, la Direction Interministérielle du Numérique, le Conseil National du Numérique, le Ministère de l'Éducation, l'Autorité de Régulation de la Communication Audiovisuelle et Numérique, l'Agence de la Transition Écologique, OpenData France et la Banque des Territoires.
Un rassemblement, organisé par la Ville de Chambéry, l'Agence Nationale de la Cohésion des Territoires et le Hub Hinaura, soutenu par le Département de Haut de Savoie, qui s'est déroulé dans plusieurs lieux emblématiques de Chambéry (Centre de Congrès, Espace Malraux) offrant aux participants un "terrain de jeu" propice aux débats et échanges sur l'avenir du numérique.
En clôture de ses deux journées exceptionnelles, nous avons pu retrouver notre DG accompagné de Bastien Masse, Délégué Général de l'Association ClassCode, sur un format d'une heure présentant six ressources ludiques pour s'approprier l'IA dont les travaux de la communauté OpenLLM France.
La communauté OpenLLM
La communauté Open LLM France, aujourd'hui riche de plus de 800 membres venant de différents horizons (recherche académique, industrie, passionnés d'IA et d'Open Source…), collaborent au quotidien pour développer un tout nouveau modèle d'IA générative 100% Open Source. L'objectif de cette communauté est de construire un véritable commun numérique, d'intérêt général, au service de la société. Chez LINAGORA et au sein de la communauté OpenLLM, nous sommes convaincus qu'il est nécessaire de réentraîner un nouveau modèle d'IA, malgré l'existence de nombreux modèles déjà disponibles. L'un des problèmes majeurs que l'on rencontre aujourd'hui avec les modèles existants est la provenance des données. On retrouve fréquemment des résultats inappropriés ou biaisés, que l'on appelle également des hallucinations, qui ne reflète pas la réalité et met en évidence une faille de sécurité. Michel-Marie, insiste sur l'importance de la qualité des jeux de données d'entraînement afin garantir, ou du moins, d'optimiser les performances des IA et ainsi être en adéquation avec des besoins spécifiques, tel que l'Éducation par exemple.
« Tous les modèles que vous pratiquez, vous ne connaissez pas les données qui ont été utilisées pour l’entrainement. » - Michel-Marie MAUDET
LUCIE, le tout 1ᵉʳ LLM 100% Open Source
LUCIE est un modèle construit from scratch, avec pour objectif de rendre son fonctionnement et ses données d'entraînement accessibles, afin de pouvoir identifier et corriger d'éventuels biais dans les données.
« L'enjeu d’OpenLLM France est la construction d'un modèle de fondation, from scratch, dédié à l'éducation, qui soit aussi performant en langue française, et qui puisse être mis à disposition des techs, des enseignants ou des élèves. » - Bastien Masse
Pour répondre à ses problématiques, la communauté OpenLLM a donc comme projet de créer le tout premier modèle de LLM 100% Open Source appelé Lucie. Un modèle dont les données d'entraînement seront librement accessibles et auditées. L'objectif est de garantir une transparence totale, contrairement à d'autres modèles dits "Open Source" qui ne fournissent pas cette ouverture complète. Ce modèle est sous licence APACHE B2, permettant une utilisation libre et gratuite, et basé sur des données de qualité plutôt qu'une grande quantité, afin de rendre le modèle plus compact et utilisable sur des infrastructures légères, comme un téléphone.
Michel-Marie Maudet explique :
" L'objectif de ce projet c'est de construire un modèle ce qu'on appelle réellement open source […] et qu'il soit accessible au grand public et notamment pour des objectifs de médiation scientifique".
Un modèle actuellement en cours d'entrainement qui représente une réelle opportunité pour tout l'écosystème du numérique puisqu'il sera possible de tester et de le spécialiser sur des cas d'usage concrets. Il sera rendu accessible au grand public, et un webinaire est prévu le 23 octobre prochain à 17h, aura pour but d'en présenter les détails, l'architecture, ainsi que les données d'entraînement utilisées.
Lien du webinar : https://onstage.linagora.com/b/mic-duh-u9b-egp
Les perspectives pour l'Éducation
Le modèle d'IA générative souverain développé par la communauté Open LLM France a de nombreuses perspectives pour l'éducation. Les enseignants pourront utiliser ce modèle pour créer des ressources éducatives libres et adaptées aux besoins de leurs élèves. Les étudiants pourront également utiliser ce modèle pour développer leurs compétences en IA et en programmation.
Michel-Marie MAUDET annonce donner un premier aperçu de ce cas d'usage sous forme d'atelier qui sera organisé à l'occasion de l'EDUCATEC, où les participants pourront expérimenter et tester le modèle en direct.
Il ajoute :
"Notre objectif c'est aussi d'organiser lors d’EDUCATECH des ateliers cette fois-ci en fait en "real life"".
L'enjeu est de permettre aux enseignants, élèves et chercheurs d'utiliser ce modèle de manière ouverte, transparente, et dans le respect des exigences RGPD (notamment en ce qui concerne les élèves et les mineurs). Ce modèle pourrait également être utilisé localement sur des machines accessibles, comme celles présentes dans les écoles.
Une fonctionnalité clé sera le RAG (Retrieval-Augmented Generation), qui permet de soumettre des documents spécifiques à des requêtes, afin que l'IA génère des réponses en prenant en compte des références pédagogiques précises. L'idée est de fournir une alternative française et souveraine aux outils actuels comme ChatGPT ou OpenAI, tout en respectant des critères de transparence et de souveraineté.