Construire une IA vietnamienne souveraine
En octobre 2025, lors d’un événement axé sur l’IA à Ninh Binh, Alexandre Zapolsky, Président de LINAGORA, a pris part à une série de discussions qui ont contribué à façonner notre stratégie IA au Vietnam. Parmi celles-ci, un échange avec Ho Duc Thang, contributeur aux lois sur l’IA au Vietnam, a mis en lumière une question clé : comment le Vietnam peut-il construire des solutions d’IA souveraines tout en s’appuyant sur des technologies ouvertes et transparentes ?
Le Vietnam entre dans une phase décisive dans la définition de son écosystème IA. À travers nos discussions avec des acteurs gouvernementaux, y compris des équipes du Ministère de la Science et de la Technologie (MOST), il est apparu clairement que le développement de modèles d’IA en langue vietnamienne n’est pas seulement un défi technique, mais aussi une priorité stratégique. Aujourd’hui, le paysage mondial de l’IA est largement dominé par de grandes entreprises américaines et chinoises, qui définissent les standards de performance et d’adoption. Bien que ces solutions offrent de fortes capacités, s’y appuyer exclusivement pourrait conduire à une dépendance stratégique et technologique croissante, en particulier dans des domaines sensibles tels que les services publics, la gouvernance des données et la gestion des connaissances en entreprise. Dans ce contexte, favoriser les capacités locales et des alternatives d’IA souveraines est essentiel pour garantir l’autonomie et le contrôle à long terme. Le MOST organise activement des initiatives de benchmarking afin d’évaluer la performance des modèles de langage de grande taille (LLM) en vietnamien, créant un environnement dynamique et compétitif aligné avec l’effort plus large du pays en faveur d’une IA ouverte et souveraine. Chez Linagora Vietnam, nous voyons cela comme une opportunité de contribuer à cet effort national tout en en tirant des enseignements.
Notre ambition s’aligne naturellement avec cette vision. Dans le cadre de l’ADN open source de LINAGORA, nous apportons une expérience concrète dans le développement de modèles de langage open source à travers la communauté OpenLLM France et via Lucie - notre LLM open source souverain développé en France. En nous appuyant sur cette expérience, nous visons à développer un LLM vietnamien performant, non seulement pour garantir la précision linguistique, mais aussi pour capturer les nuances culturelles et contextuelles que les modèles globaux négligent souvent. Plus largement, nous pensons que rivaliser avec les écosystèmes d’IA dominants américains et chinois nécessite d’aller au-delà de projets isolés, spécifiques à une langue, et de combiner les connaissances, les ressources et l’expérience au sein d’une communauté open source mondiale.
Cette initiative est étroitement liée à notre stratégie produit. Nous intégrons activement des fonctionnalités d’assistance basées sur l’IA dans notre suite collaborative, Twake Workplace, avec un accent particulier sur les fonctionnalités liées aux emails et à la gestion documentaire. Bien que nous ne disposions pas actuellement de déploiements actifs au Vietnam, la disponibilité d’un LLM vietnamien performant pourrait devenir un différenciateur fort pour entrer sur ce marché. En permettant une localisation de haute qualité et des fonctionnalités basées sur l’IA adaptées aux utilisateurs vietnamiens, cela renforcerait significativement la pertinence et la compétitivité de Twake Workplace dans l’écosystème local.
Enfin, nous avons observé un intérêt fort et croissant des communautés technologiques vietnamiennes pour le développement de l’IA et les approches d’IA souveraine. Cela a été particulièrement visible lors de notre Open Tech Talk organisé en janvier 2026, où nous avons présenté nos initiatives IA, notamment OpenRAG, à des étudiants de plusieurs universités. Le niveau d’engagement et de curiosité a confirmé la pertinence de notre approche ainsi que la demande pour des solutions d’IA ouvertes et pilotées localement. En nous appuyant sur cet élan, nous avons lancé un programme de stage axé sur le benchmarking et l’entraînement de modèles en langue vietnamienne. Nous avons depuis intégré notre premier stagiaire sur ce sujet, qui travaille désormais en étroite collaboration avec l’équipe OpenRAG dirigée par Andrzej Neugebauer chez LINAGORA France. Cette collaboration illustre notre engagement à favoriser les talents locaux tout en contribuant à un écosystème international d’IA open source.
Benchmark des LLM vietnamiens
Dans la continuité de notre ambition de développer des projets IA impactants au Vietnam, comme décrit ci-dessus, nous avons initié le projet Vietnamese LLM Benchmark. L’objectif principal de ce projet est d’analyser l’état actuel des modèles de langage open source traitant la langue vietnamienne, d’établir une base de performance claire et d’identifier le modèle le plus adapté à une intégration dans nos initiatives OpenRAG.
Historiquement, les développeurs et les chercheurs ont été confrontés à un manque notable de suites d’évaluation complètes et standardisées spécifiquement adaptées aux tâches de traitement du langage naturel (NLP) en vietnamien. Pour combler cette lacune et comprendre les capacités réelles des modèles open source actuels, nous avons développé le Vietnamese LLM Benchmark. De plus, un objectif clé de ce rapport est de faciliter la sélection d’un LLM vietnamien optimal pour un déploiement dans le projet OpenRAG.
Modèles
Afin d’évaluer de manière approfondie l’écosystème actuel, le benchmark évalue trois modèles open weights distincts : Qwen3.5-9B, Qwen3-8B et Unicorn-VL-R3 (un modèle affiné pour le vietnamien).
Dataset
L’évaluation couvre différents jeux de données conçus pour tester diverses capacités cognitives et génératives. Nous avons utilisé quatre datasets distincts pour cette évaluation :
VMLU
Un benchmark à choix multiple comprenant 744 questions couvrant un large éventail de connaissances et de niveaux de difficulté en raisonnement.
UIT-ViSquAD2.0
Contient 1 000 paires de questions-réponses issues de 174 articles Wikipédia en vietnamien. Il évalue la compréhension de contextes longs et inclut 10 % de questions sans réponse afin de tester la capacité à éviter les hallucinations.
Vietnamese Multiple Document Summarization Dataset (ViM)
Composé de 100 ensembles d’articles d’actualité nécessitant une synthèse abstractive sur plusieurs documents, testant la cohérence et la capacité de synthèse.
Vietnamese Instruct General Dataset (VTSNLP)
Un large dataset contenant 4,5 millions d’exemples couvrant des tâches telles que le résumé, la traduction, l’inférence et la génération de contenu.
En raison de contraintes matérielles, seulement environ 10 % de chaque dataset a été utilisé.
Méthode
Nous avons conçu un pipeline optimisé en mémoire qui charge chaque modèle de manière séquentielle pour générer des prédictions. Cette approche garantit que l’ensemble du benchmark peut fonctionner sur un seul GPU largement accessible, comme un GPU T4 de Kaggle.
Chaque question a été transformée en un prompt autonome afin de simuler une utilisation réelle et garantir une évaluation en zero-shot. Cela empêche toute fuite de contexte entre les échantillons et garantit des conditions de test cohérentes.
Les performances ont été mesurées à l’aide de métriques standard incluant Accuracy, Exact Match (EM), F1 et ROUGE-L. De plus, pour les tâches ouvertes, nous avons utilisé une approche « LLM-as-judge ». SeaLLMs-v3-7B-Chat a évalué les résultats sur une échelle de 1 à 10 selon des critères tels que la précision, la fidélité et la cohérence.
Résultat
| Dataset | Metric | Qwen 3.5 9B | Qwen 3 8B | Unicorn-VL-R3 |
|---|---|---|---|---|
| VMLU | Accuracy | 75.91% | 66.67% | 67.07% |
| ViSquAD2.0 | F1 | 75.42% | 50.75% | 67.73% |
| ViSquAD2.0 | EM | 48.90% | 6.90% | 39.20% |
| ViM | ROUGE-L | 46.69 | 45.73 | 50.73 |
| ViM | LLM-as-judge | 7.48 | 7.62 | 7.59 |
| VTSNLP | LLM-as-judge | 7.57 | 7.52 | 7.53 |
Les résultats du benchmark montrent que les modèles avec un plus grand nombre de paramètres conservent un avantage distinct en matière de récupération brute des connaissances et de précision. Notamment, Qwen3.5-9B a obtenu la meilleure Accuracy sur VMLU avec 75.91 % ainsi que le meilleur score F1 sur ViSquAD2.0 avec 75.42%.
Cependant, le modèle Unicorn-VL-R3 prouve que le fine-tuning peut rapidement réduire l’écart de performance. Unicorn-VL-R3 a significativement surpassé le modèle de base Qwen3-8B en compréhension de lecture. De manière cruciale, il a atteint le meilleur score ROUGE-L du benchmark avec 50.73 sur la tâche complexe de résumé multi-documents (ViM). Cela suggère que le fine-tuning a fortement amélioré sa capacité à synthétiser, reformuler et organiser des informations provenant de sources multiples.
Lors de l’évaluation par le LLM juge, les trois modèles ont obtenu des scores remarquablement proches, compris entre 7.48 et 7.62. Cela indique que, bien que la récupération factuelle exacte augmente avec la taille du modèle, la capacité fondamentale à générer un texte vietnamien cohérent, naturel et pertinent est déjà très avancée dans les modèles open source actuels accessibles.
Conclusion et prochaines étapes
Comme prochaine étape, nous prévoyons d’étendre ce travail en exécutant le benchmark sur les datasets complets, en tirant parti d’une infrastructure plus puissante fournie par OVHcloud. Cet environnement amélioré nous permettra d’obtenir des résultats plus complets et statistiquement fiables, tout en reflétant le même type de configuration de production utilisée pour déployer nos solutions OpenRAG.
Au-delà de l’évaluation, nous considérons ce framework de benchmark comme un élément fondamental pour les développements futurs. Il fournit un environnement structuré et reproductible pour entraîner, affiner et valider les modèles en langue vietnamienne de manière itérative, garantissant des progrès continus basés sur des gains de performance mesurables. Dans cette optique, le benchmarking n’est pas seulement un outil d’évaluation, mais devient un composant central du cycle de vie de développement des modèles.