Retour sur l'intervention de notre AI Program Director Andrzej Neugebauer pour PIAF Saclay pour échanger sur les challenges de l'IA open source.
Dans un contexte dominé par les géants américains et chinois de la tech, chez LINAGORA, nous croyons en une autre voie : une intelligence artificielle open source, transparente, éthique et adaptée à nos propres valeurs.
Andrzej nous partage les coulisses du développement de LUCIE avec la communauté OpenLLM France/Europe, un modèle de langage francophone, compact, souverain et éthique.
LUCIE, c'est une IA :
- Entièrement open source, tant au niveau du modèle que des données d’entraînement,
- Éthique, respectant la vie privée et les droits d’auteur,
- Souveraine, développée en France, sans dépendance aux infrastructures étrangères,
- Francophone, optimisée pour les langues européennes.
Le modèle LUCIE compte 7 milliards de paramètres et a été entraîné sur un jeu de 3 000 milliards de tokens avec des données soigneusement sélectionnées, ainsi que le respect des droits d'auteur et de la vie privée :
- Tous les journaux, monographies, magazines et documents législatifs, ainsi que la plupart des livres, sont dans le domaine public
- D'autres données sont publiées sous des licences permissives (CC BY ou CC BY-SA)
- Toutes les données web proviennent de sites web ne s'opposant pas au scraping.
Les ensembles de données sont donc open source, transparents et éthiques.