Assises de l'IA et des Territoires
Comment l'intelligence artificielle (IA), y compris l'IA générative, peut-elle accompagner les collectivités territoriales et les services de l'État dans la réalisation de leurs missions de service public ? De la mobilité à la sécurité, en passant par l'énergie et la transition écologique (...), cette journée des Assises de l'IA et des Territoires a permis de passer en revue une multitude d'applications concrètes de l'IA sur nos territoires.
L'IA générative, en plein essor, suscite autant d'enthousiasme que de questionnements. Capable de produire du texte, des images, ou même de la musique à partir de simples instructions, elle redéfinit la manière dont nous créons et interagissons avec la technologie. Son potentiel soulève de nombreux défis. Qu'il s'agisse de la fiabilité des contenus générés, de la protection des données personnelles, l'IA pousse à repenser nos cadres éthiques, juridiques et économiques.
L’arrivée de ChatGPT a profondément transformé les pratiques professionnelles dans de nombreux secteurs, y compris les services publics. Comment ces IA génératives peuvent-elles soutenir les agents territoriaux et de l'État dans l'accomplissement de leurs missions ? C'est autour de cette question que se sont retrouvés Michel-Marie Maudet, DG et Co-fondateur de LINAGORA, Bernanrd Giry, DG de la Transformation Numérique de la Région Ile-de-France, Pascal Chevallot, Ingénieur développement de services mutualisés pour la transition numérique chez SYANE et Mick Levy, IA Directeur stratégie & innovation chez Orange Business, sur une table-ronde animée par Ariel Gomez de Smart City Mag.
Les défis de l'intelligence générative
Michel-Marie Maudet identifie trois obstacles majeurs dans le déploiement à grande échelle de l'IA générative : la difficulté de démontrer la valeur ajoutée pour les utilisateurs finaux, le coût élevé des infrastructures nécessaires pour passer à l’échelle, et l'intégration complexe de ces technologies dans les outils utilisés quotidiennement, notamment en matière de gestion de données sensibles.
" Il y a trois freins au passage à l'échelle" [...] On a du mal à objectiver la valeur perçue pour l'utilisateur final [...] Le coût du passage à l'échelle puisque ces infrastructures, ces services nécessitent des investissements [...] Et la nécessité d'intégrer ces systèmes dans les applications utilisées au quotidien. "
Maîtriser la manipulation et l’intégration des données sensibles ou personnelles dans une IA relève d'une véritable valeur ajoutée :
" Si on traite les sujets RH par exemple, forcément, on ne peut pas le faire avec ses technologies qui sont proposées actuellement sur le grand public. C'est aussi ça qu'on cherche à proposer, et se sont ce genre de cas d'usage que l'on vise et qui nous semble apporter plus de valeur dans les organisations, qu'elles soient publiques ou privées. " Michel-Marie
Présentation de la communauté OpenLLM et de LUCIE
L'initiative OpenLLM-France, lancée en juin 2023, vise à promouvoir la diversité dans le domaine de l'intelligence artificielle (IA) générative à travers le développement de modèles 100 % Open Source. Cette approche vise à offrir plus de transparence, notamment en rendant publiques les données d'entraînement, renforçant ainsi la confiance dans les usages de l'IA. Elle permet également de mutualiser les efforts pour réduire l'impact environnemental lié à l'entraînement des modèles.
LUCIE, le 1ᵉʳ modèle d'IA générative Open Source en cours de développement par cette communauté, sera libre d'utilisation, avec un équilibre entre différentes langues européennes (français, anglais, italien, espagnol, allemand) et des documents techniques (code, mathématiques) pour renforcer ses capacités de raisonnement. Contrairement aux grands modèles (LLM) des géants américains, Open LLM-France se concentre sur des "petits modèles" (SLM), plus sobres et respectueux de l'environnement, avec l'objectif de les rendre accessibles à tous, même sur des infrastructures simples comme un PC classique.
" L'objectif de cette communauté, c'est de développer de la diversité dans le domaine de l'IA générative, avec un objectif, c'est d'entraîner un ou des modèles d'IA génératif 100 % open source. " Michel-Marie Maudet
Quels moyens disposons-nous face aux sociétés internationales ?
Les efforts pour développer un modèle d'IA générative Open Source sont assez conséquents, confirme Michel-Marie. Pour entraîner un modèle, il est nécessaire d'avoir (1) des données, (2) des ressources computationnelles et (3) des talents.
Pour les données de LUCIE, la communauté a collecté 3 000 milliards de mots sans utiliser de données synthétiques, ni celles provenant d'Internet, afin de garantir une plus grande transparence et éthique, Michel-Marie ajoute :
" Quand on commence à ouvrir les datasets (...), on s'aperçoit qu'il y a beaucoup, beaucoup de choses qu'on n'aimerait pas voir apparaître. Par ailleurs, sachez que tous les modèles que j'ai pratiqués aujourd'hui ont certainement des données personnelles qui vous appartiennent ou des œuvres protégées par le droit d'auteur. "
En ce qui concerne les ressources computationnelles, l'accès au supercalculateur Jean Zay a permis d'entraîner le modèle gratuitement, grâce à des partenariats avec des entités publiques. Le projet utilise aujourd'hui 512 cartes H100 en parallèle, consommant environ 700 000 heures GPU pour l'entraînement.
Michel-Marie précise :
" 45 000 euros la carte, effectivement c'est très cher ! C'est pour ça qu'on a créé une communauté ouverte. Ce genre de communauté intéresse du monde : le monde scientifique, académique et la recherche. Donc on a très vite été en contact avec les personnes qui s'occupent des moyens de calcul nationaux, dont une entité qui s'appelle le GENCI, et vous avez forcément entendu parler de cette fameuse machine Jean Zay."
Enfin, en matière de talents, la France bénéficie d'une formation académique de qualité dans le domaine de l'IA, permettant de mobiliser une équipe technique performante avec des personnes issues de diverses institutions :
" Actuellement, pour entraîner Lucie nous sommes une trentaine de personnes : une dizaine de LINAGORA, puis 20 autres personnes de labos de recherche qui travaillent avec nous (CEA, LORIA, IDRIS). Un des objectifs de cette communauté était de pouvoir élargir le domaine de compétence. " Michel-Marie Maudet
LLM ou SLM ?
Dans quelles situations il serait plus judicieux d'enrichir les données d'un LLM (Large Language Model) plutôt que de privilégier des modèles plus petits, tels que les SLM (Small Language Model) ou les PLM (Personnal Language Model) ?
La stratégie des modèles spécialisés, adoptée notamment par OpenAI avec ses derniers modèles, est en plein essor dans l'industrie de l'IA. Ces modèles plus petits et personnalisés sont recommandés pour les clients, accompagnés de hubs à modèles permettant de tester plusieurs approches pour différents cas d’usage. Cependant, l’entraînement de ces modèles présente toujours de nombreux défis, particulièrement liés aux données : les droits d’utilisation, les biais, et la représentation genrée.
Michel-Marie :
" Typiquement, tous les modèles d'aujourd'hui utilisent les données de Wikipédia, qu'on peut le considérer comme source sûre, mais globalement, 90 % des contenus de Wikipédia sont soit construits, soit validés par des hommes. Qu'est-ce qu'on fait ? Comment on traite ses données ? "
Ce sont des biais ou "préférences" inévitables, souvent liés aux choix de filtrage des données. C'est pourquoi Michel-Marie conseille de limiter le fine-tuning des modèles, car cela est coûteux et complexe à maintenir. Des solutions comme le RAG (retrieval-augmented generation) sont préconisées pour les cas d’usage actuels dans les collectivités. De plus, il faut souligner que de nombreuses tâches peuvent encore être accomplies avec des IA symboliques ou des algorithmes simples, sans nécessiter des modèles d'IA générative sophistiqués.
Comment capturer l'intelligence collective ?
Premier cas d'usage intéressant : capitalisation de l'intelligence collective lors de réunions. L’objectif est de développer des outils capables d’enregistrer, de transcrire et de résumer automatiquement les réunions, tout en permettant une interaction intelligente avec ces contenus. Un outil avec une multimodalité, c’est-à-dire, capable d’interagir avec les contenus générés par la voix plutôt qu’un clavier, facilitant ainsi l’accès à des informations spécifiques, comme les résumés d’interventions antérieures.
Sur ce sujet, le Directeur Général de LINAGORA énonce des projets concrets, tels que l'équipement de salles de réunion pour la Commission européenne, et les solutions déconnectées et sécurisées développées pour le Ministère des Armées, qui permettent d’enregistrer et d’interagir avec les résumés de réunions sensibles dans des environnements sécurisés. L'idée est de mieux capitaliser l'intelligence collective et de la rendre accessible de manière efficace dans le temps.