Première IA ouverte qui parle, comprend et répond en tunisien

Première IA ouverte qui parle, comprend et répond en tunisien

Un pas historique pour l’IA ouverte en arabe et en dialecte tunisien !

Aujourd’hui, chez LINAGORA, nous franchissons un cap que personne n’avait encore osé prendre :

un LLM qui parle, comprend et répond en dialecte tunisien, en texte et en voix. Un modèle construit pour la Derja, avec la Derja, et pour ceux qui la parlent.

Ce que nous montrons aujourd’hui :

  • Mode Chat : poser une question en tunisien et obtenir une réponse textuelle.
  • Mode Speak : poser la question en voix, le modèle reconnaît la parole (ASR), génère la réponse et la restituent en speech-to-speech.
  • Démo réalisée avec la question : Que savez-vous de la culture tunisienne ?
    شنوه تعرف على الثقافة التونسية ؟شنوه تعرف على الثقافة التونسية ؟
    → transcription + réponse LLM + réponse vocale.

Pourquoi c’est important

  • 1er modèle speech-to-speech dédié au dialecte tunisien.
  • Basé sur un pipeline complet : ASR wav2vec, LLM Labess-7B-Chat, TTS tunisien.
  • Labess-7B-Chat : un LLM entraîné spécifiquement sur la Derja, lancé il y a 5 mois.
  • Mise en place d’une MMLU dédiée pour évaluer le modèle en dialecte.
  • D’autres versions arrivent : plus de données, meilleure qualité vocale, latence réduite.

Une preuve concrète d’innovation ouverte
Soyons honnêtes : les grands modèles actuels ne parlent pas votre langue. Littéralement. Pour rappel, aujourd’hui, les grands LLM comme LLAMA V2, c’est :

  • 90 % anglais, 
  • 0,17 % allemand,
  • 0,16 % français, 
  • 0,13 % espagnol

Autrement dit : le reste du monde ne pèse pas lourd.
Chez LINAGORA, nous avons décidé qu’une IA utile doit parler la langue des gens qui l’utilisent. Pas l’inverse. C’est ça, construire une IA plus équitable, plus libre, plus humaine.

Et maintenant ?
Nous continuons la collecte de données en tunisien et l’amélioration du modèle.

Aidez-nous à construire le numérique de demain ! Cette IA est là pour vous, grâce à vous.
Que souhaitez-vous qu'elle apprenne ou améliore en priorité ?

Le lien du LLM

Merci à nos collaborateurs : Wajdi Ghezaiel, Jean-Pierre LORRE, Hedi Naouara, PhD. Sarah ZRIBI LAKHOUA