Le modèle OpenLLM est sur Hugging Face
LINAGORA et la communauté OpenLLM France ont publié le premier modèle ouvert LLM : "CLAIRE" sur Hugging Face.
Il s’agit du modèle Claire-7B-0.1. Particulièrement adapté au traitement de données résultants de dialogues en français.
Les données d’apprentissage qui ont été sélectionnées sont des données conversationnelles en français disponibles sous licence ouverte :
Soit issues des travaux de constitution de corpus adaptés menés par les équipes R&D de LINAGORA ;
Soit des corpus ouverts proposés par la communauté des acteurs du traitement du langage naturel. Les jeux de données utilisées sont détaillés dans les cartes des modèles ;
Claire-7B-0.1 se décline en deux modalités en fonction des licences et des données d’apprentissage :
Un premier modèle est diffusé sous licence ouverte CC-BY-NC-SA, car il a été appris sur des données dont certaines étaient en CC-BY-NC-SA. C’est celui qui a bénéficié du jeu de données le plus volumineux ;
Un second modèle est diffusé sous licence open source Apache V2. Son apprentissage n’utilise que des données sous licences compatibles ;
Ces modèles sont issus de l’enrichissement en « continual pre-training » du modèle Falcon 7B afin d’améliorer son comportement sur des données de dialogue en français.
Félécitations à nos équipes R&D et partenaires !!!
Jean-Pierre LORRE le patron de la R&D chez LINAGORA revient ici sur les 2 modèles de base considérés donnant naissance à CLAIRE et assurer que CLAIRE-Falcon-7B-0.1 surpasse l'homologue adapté de Mistral dans les catégories Fluidités et Pertinence
" Pour ce travail, nous avons envisagé deux modèles de base : Falcon 7B et Mistral 7B-v0.1 que nous avons tous les deux entrainés avec nos données.
Après une évaluation rigoureuse impliquant une cohorte que nous décrirons dans un prochain papier nous avons retenu le modèle Falcon-7B qui présente de meilleures performances.
Pour arriver à cette conclusion nous avons comparé les productions des modèles Falcon-7B, Mistral-7B-v0.1, Claire-Falcon-7B-v0.1 et Claire-Mistral-7B-v0.1 sur des prompts conversationnels.
Chacune des quatre réponses générées a été évaluée selon trois dimensions : Interaction, fluidité et pertinence.
Nos résultats confirment que le « continual pre-training » de Falcon-7b et de Mistral-7B-v0.1 conduit à une amélioration par rapport aux modèles de base dans les trois dimensions d'évaluation et que Claire-Falcon-7B-0.1 surpasse l'homologue adapté de Mistral dans les catégories Fluidité et Pertinence ".
w/ Ismail Harrando, Julie Hunter, Jérome Louradour, Michel-Marie Maudet, Virgile Renard, Guokan Shang
Et Christophe Cerisara, Pierre-Carl Langlais, Anastasia Stasenko, Pierre Colombo,
Le serveur Discord de la communauté OpenLLM-France
#IA #NLP #TALN #LLM #opensource