CPDP 2024 - IA générative Open Source Européenne : avancées et enjeux
Lors du Congrès Mondial sur la Protection des Données Personnelles (CPDP), Michel-Marie MAUDET, directeur général et co-fondateur de LINAGORA, a présenté les activités de LINAGORA, et notamment les différentes initiatives lancées récemment dans le domaine de l'Intelligence Artificielle. Michel-Marie MAUDET, fait aujourd'hui partie des plus grands "sachants" et "faiseurs" de l'écosystème Open Source. Ses éclairages, avis et réflexions sont régulièrement sollicités au plus haut niveau et ici à l'international depuis Bruxelles.
OpenLLM Europe, un acteur majeur de l'IA Open Source
Michel-Marie MAUDET a entamé son intervention par une introduction sur la communauté OpenLLM-France, désormais étendue à OpenLLM-Europe depuis février 2024. Une initiative qui vise à construire des alternatives numériques autour d'une communauté passionnée d'IA générative Open Source. Aujourd'hui, elle compte plus de 750 membres, rassemblant des industriels, universitaires et des organisations publiques. Cette synergie de compétences est, sans aucun doute, un moteur crucial pour l'innovation et pour l'indépendance technologique.
" Nous croyons fermement qu'un modèle véritablement Open Source en IA est obligatoire, c'est une question de biodiversité ! Comme dans la nature, la biodiversité assure la résilience et la santé de l'écosystème. "
Dans le domaine de l'intelligence artificielle, il est essentiel de promouvoir un modèle véritablement Open Source, car il faut croire que la biodiversité numérique est la clé pour assurer la résilience et la santé d'un écosystème. En créant de la diversité numérique, nous pouvons encourager l'innovation, l'équité, l'inclusivité et l'accessibilité de cette technologie à tout le monde.
C'est dans cet esprit que Michel-Marie a initié l'initiative OpenLLM, qui aujourd'hui, poursuit deux objectifs clés. Tout d'abord, la construction de biens communs numériques dans le domaine de l'IA générative : des biens utilisés par tous, sans restriction, pour inciter l'innovation et le développement de nouvelles technologies. Le second objectif est de construire une communauté Open Source afin d'échanger et mutualiser les efforts dans la construction de ces biens communs.
En ouvrant les sources et en partageant les connaissances, il est possible de créer une communauté forte et dynamique qui pourra répondre aux défis futurs de nos sociétés. Les membres de la Communauté OpenLLM sont tous convaincus que c'est la seule façon d'assurer une utilisation équitable et responsable de l'intelligence artificielle. Michel-Marie a notamment exprimé sa fierté dans l'évolution des travaux. La communauté est désormais prête à se lancer à un niveau supérieur : développer un tout nouveau modèle de LLM 100% Open Source, LUCIE.
LUCIE : le nouveau modèle de la communauté OpenLLM
Pour former et entrainer un nouveau modèle, il est nécessaire de créer, en amont, ce qu'on appelle un tokenizer. Michel-Marie MAUDET souligne par conséquent ici l'importance de créer un tokenizer européen pour éviter les surcoûts. En effet, ce qu'il faut bien comprendre, c'est que si vous utilisez aujourd'hui un modèle comme ChapGPT, il est principalement entraîné sur l'anglais. Cela signifie que si vous demandez quelque chose en espagnol, en français ou en allemand, vous devrez payer un coût supplémentaire de 30 %, car il n'est pas optimisé pour ces langues. En créant un tokenizer Européen, il est possible d'adapter les modèles à l'environnement linguistique, et ainsi, bénéficier de la même qualité de service que les autres utilisateurs.
Mais l'entrainement de ce type de modèle demande des ressources humaines et financières colossales :
" Les ressources computationnelles sont très coûteuses et très importantes. Pour CLAIRE, ce n'est pas 200 000 heures, mais maintenant avec notre jeu de données, nous sommes proches d'1 à 2 milliards d'heures de GPU. Pour imaginer, nous formons et commençons à tester des configurations avec 256 GPU, il faut donc plus de 200 jours pour former le modèle. "
Le soutien de l'État Français, une aide précieuse aux projets IA
Michel-Marie a aussi profité de cette assemblée pour se féliciter du récent soutien dont les développements en matière d'IA open source ont fait l'objet de la part du gouvernement français. En effet, pas plus tard que la veille, le Président Emmanuel Macron avait annoncé les lauréats d'un appel à projets France 2030 pour construire des biens communs numériques en intelligence artificielle générative. LINAGORA est lauréat France 2030.
" Je suis ravi de vous annoncer que nous avons maintenant le soutien du gouvernement français. "
L'initiative OpenLLM a été retenue comme l'un des lauréats de ce programme. Cela implique une aide financière supplémentaire pour les deux prochaines années. L'objectif est de poursuivre les travaux autour de la création d'un tokenizer pour les langues européennes et, ainsi, encourager la mutualisation des efforts au niveau européen. Michel-Marie MAUDET a exprimé sa satisfaction face à ce soutien, soulignant l'importance d'une coopération renforcée pour affronter les géants de la technologie tels que les GAFAM.
Enjeux réglementaires et politiques
Vous l'aurez bien compris, il est nécessaire de mutualiser nos ressources et de joindre nos forces autour des différentes initiatives nationales et européennes dans le développement de l'IA. Au-delà des décisions politiques et des réglementations, il est crucial de commencer à travailler sur des projets concrets qui puissent avoir un impact réel sur la société. C'est pourquoi le développement du tokenizer pour les langues européennes a même déjà débuté malgré l'incertitude de la réglementation future.
La rapidité, la réactivité et l'innovation sont essentielles pour avancer dans ce domaine et les technologies Open Source peuvent jouer un rôle clé dans ie processus. En effet, il existe déjà des exemples de réglementation ou de politiques influencées par les communautés. S’il est démontré que les technologies Open Source ne sont pas un frein pour l'IA, elles pourraient ainsi avoir un impact crucial sur la future version d'un IA Acte. Pour ce faire, les équipes de LINAGORA travaillent étroitement avec des chercheurs et des équipes de recherche publiques, comme le CNRS.
" L'open source est une excellente façon de combiner les efforts entre les communautés de chercheurs et les acteurs de l'industrie comme nous."
La présentation de Michel-Marie MAUDET au CPDP 2024 a mis en lumière le rôle clé que peut jouer l'Open Source dans le domaine de l'intelligence artificielle. Les initiatives comme OpenLLM à travers des modèles tels que LUCIE démontrent que la collaboration et le soutien institutionnels sont essentiels pour construire des technologies inclusives, innovantes et résilientes. Avec des efforts conjoints et une vision claire, l'Europe peut se positionner en tant que leader dans le paysage mondial de l'IA open source.