Afterwork EPITA Alumni x LINAGORA à la Villa Good Tech

Il y a quelques jours, LINAGORA accueillait à la Villa Good Tech, l'association EPITA Alumni pour un afterwork, suivi d'un cocktail networking, sur les enjeux de l'intelligence artificielle en entreprise. L'occasion pour le Directeur Générale et co-fondateur de LINAGORA, Michel-Marie Maudet, d'échanger aux côtés d'Augustin Abelé et Robin Champsaur de Moqa Studio, sur les technologies d'IA génératives et notamment sur le RAG (Retrieval-augmented generation) dans le domaine du service client. 

L'IA est devenue un sujet incontournable dans le paysage technologique actuel. Les modèles de langage génératif, comme ChatGPT, Claude, et Perplexity, ont révolutionné la manière dont nous interagissons avec la technologie. Cependant, derrière ces avancées se cache une question cruciale : celle de l'indépendance technologique et de la souveraineté numérique

 

La nécessité d'une IA souveraine européenne

 

La Dépendance Technologique

L'Europe, et plus particulièrement la France, a souvent été en retard sur les avancées technologiques majeures. Michel-Marie nous le confirme : "si on n'agit pas maintenant, on deviendra complètement dépendants des technologies américaines.

Aujourd'hui, environ 80 % des requêtes sur Internet passent par des serveurs américains dès le premier clic, ce qui rend difficile l'indépendance des Clouds européens. Sans action, cette dépendance pourrait atteindre 100 %. Un autre point crucial est la dépendance aux cartes GPU : suite à l'interdiction pour Nvidia de vendre ses derniers GPU aux Chinois, rien ne garantit que l’Europe ne sera pas la prochaine cible… Ce sujet va au-delà des GAFAM et touche à notre souveraineté technologique et civilisationnelle.

" Globalement, dès que vous entrez une URL, vous faites "entrer", vous êtes déjà potentiellement dans un système manager par les Américains

Michel-Marie MAUDET

 

L'importance de la culture et de la diversité

Les opinions dans les modèles IA dépendent des données et de la culture de leurs sources. Si ces données proviennent principalement de sources américaines, les opinions et les valeurs qu'ils génèrent risquent de ne pas refléter la diversité culturelle européenne.

" Pour ma part, je ne souhaite pas que le futur de mes enfants soit guidé par des IA qui n'auraient pas la culture ou la connaissance de ce que nous sommes aujourd'hui. "

Michel-Marie MAUDET

 

Les modèles d'IA sont profondément influencés par les données sur lesquelles ils sont entraînés. Par exemple, le modèle Llama est entraîné majoritairement en anglais, ce qui limite la diversité culturelle représentée. Imaginez : si vous demandez à un modèle de dessiner une maison pour une famille près d'Arras ou en Alsace, il aura probablement du mal à créer une image représentative de cette région, car il n'a pas été exposé à de nombreuses données locales : "l'information, elle est bien présente, mais à moins de 1 % par rapport à 90 % des autres données". 

Cette limite est visible dans les réponses des modèles : demandez par exemple quel est le premier micro-ordinateur personnel. Bien que le Micral N soit le premier, beaucoup de modèles mentionneront l'Altair 8800, car les données américaines dominent. En choisissant les données d'entraînement, les concepteurs influencent les biais et préférences du modèle, rendant difficile l'obtention de perspectives diversifiées.

L'initiative OpenLLM-France, menée par LINAGORA et d'autres acteurs de l'IA Open Source, vise à inverser ces tendances en développant des modèles d'IA entièrement ouverts et indépendants.

 

1729609776569.jpeg

 

LINAGORA et la communauté OpenLLM-France

 

Un engagement de longue date

" Ce que l'on fait depuis 25 ans à LINAGORA : c'est de développer des alternatives aux géants ! "

Michel-Marie MAUDET

 

Avec LINAGORA,  nous nous sommes engagés depuis 25 ans à offrir ses alternatives aux géants technologiques (Américains et Chinois) grâce aux solutions Open Source.
L'initiative OpenLLM-France s'inscrit dans cette démarche :  créer des modèles d'IA 100 % ouverts et accessibles à tous, offrant la souveraineté technologique aux États et garantissant une dépendance technologique au secteur privé. 

 

OpenLLM-France : communauté et collaboration

Le succès d'OpenLLM-France repose en grande partie sur la collaboration et la force de cette communauté. L'idée de cette initiative est de fédérer une communauté de passionnés d'IA générative Open Source autour de travaux que l'on appelle "communs numériques". Suivant cet objectif, l'initiative a réussi à mobiliser des centaines de spécialistes, issus de laboratoires et d'institutions académiques, pour travailler ensemble sur des projets ambitieux comme LUCIE : le tout premier modèle d'IA générative 100 % Open Source en cours d'entrainement

Michel-Marie explique : 

 

"Sur 800 personnes (dernier décompte de septembre), 1%, donc près de 80 personnes, travaillent aujourd'hui avec nous. Se sont des spécialistes, issus de labos, qui ont déjà travaillé sur l'entraînement de Bloom, qui travaillent au GENCI, et qui nous donne accès à la machine Jean ZAY.

Une approche collaborative qui reflète bien les valeurs communautaires de l'Open Source, qui permet aujourd'hui de démultiplier les efforts et de bénéficier d'une expertise diversifiée et qualifiée.

 

Défis et perspectives d'OpenLLM-France

 

Les défis techniques et financiers

L'entrainement des modèles d'IA de grande envergure nécessite des ressources considérables, tant en termes de données que de puissance de calcul. Le consortium OpenLLM-France à la chance de compter permit les lauréats de l'AAP France 2030 sur les communs numériques pour lequel il bénéficie du soutien financier de l'État. Et grâce aux différents partenariats privé/public de LINAGORA, la communauté a accès à des ressources computationnelles conséquentes comme le supercalculateur Jean Zay du GENCI.

Michel-Marie Maudet insiste sur la nécessité d'utiliser des petits modèles. Pour une utilisation efficace de l'IA, il est préférable de créer de petits modèles (SLM - Small Language Models) qui peuvent être exécutés sur des machines ordinaires, plutôt que des modèles lourds (LLM - Large Language Models) nécessitant des ressources massives. Cette préférence permet également de parer la dépendance à de lourdes infrastructures comme des data centers. Ce genre de modèles spécialisés représentent également une opportunité assez importante, que ce soit plus économique qu'écologique

"Ses fameuses cartes H100 dont vous avez rêvé. Il y en a 1474 à un prix d'achat de 40 000 euros pièce. Et donc effectivement, il faut des gros budgets".

Michel-Marie MAUDET

 

De plus, l'utilisation de l'API d'OpenAI montre que les requêtes en français coûtent 30 % de plus que celles en anglais, en raison d'un tokenizer entraîné principalement sur l'anglais, ce qui entraîne une augmentation du nombre de tokens nécessaires pour le français, et donc des coûts supplémentaires.

 

Les perspectives

OpenLLM France ne vise pas seulement à créer des modèles d'IA performants, mais aussi à les rendre accessibles à tous. Le modèle LUCIE, en cours d'apprentissage, sera publié sous une licence Open Source, permettant à quiconque de l'utiliser et de le modifier. Cette approche vise à démocratiser l'accès de l'IA et à encourager l'innovation.

Il est certain que la France, et plus largement, l'Europe, ont cette capacité à développer des modèles d'intelligence artificielle de haut niveau, même si la comparaison avec des modèles étrangers n’est pas toujours équitable : les modèles francophones sont rarement évalués avec des benchmarks adaptés, ce qui rend la comparaison difficile avec d'autres modèles comme Llama ou ChatGPT.

Le souhait de cette communauté à travers la construction de ce LLM est de répondre à des besoins spécifiques comme ceux du monde éducatif. Contrairement à des modèles généralistes comme ChatGPT, qui requièrent une connexion Internet, LUCIE pourra fonctionner hors ligne, sur un simple ordinateur, un atout pour l'enseignement en France. L'objectif est que les élèves français, en particulier ceux en fin de primaire et au collège, aient accès à une IA qui reflète les valeurs et la culture françaises, et non un contenu globalisé et biaisé par l'anglais.

La communauté se tourne donc vers des projets multimodaux, intégrant la voix et la reconnaissance vocale en français. Le modèle pourrait ainsi être utilisé pour des interactions vocales en français, une fonctionnalité que les IA anglophones n’offrent pas de manière optimale dans cette langue. Leur vision à long terme est de développer des "action modèles", c’est-à-dire des agents capables de réaliser des actions spécifiques, au-delà des modèles de langage (LLM) classiques.


Vous le voyez : les défis sont nombreux, mais les perspectives sont prometteuses. À travers cette initiative, l'Europe pourrait bien devenir un acteur majeur dans le domaine de l'intelligence artificielle générative.


 

 

Comment puis-je vous aider ?

CAPTCHA
2 + 15 =
Trouvez la solution de ce problème mathématique simple et saisissez le résultat. Par exemple, pour 1 + 3, saisissez 4.
Cette question sert à vérifier si vous êtes un visiteur humain ou non afin d'éviter les soumissions de pourriel (spam) automatisées.