En octobre 2025, lors d'un événement consacré à l'IA à Ninh Binh, [Alexandre Zapolsky](https://www.linkedin.com/in/alexandrezapolsky/), président de LINAGORA, a pris part à une série de discussions qui ont contribué à définir notre stratégie en matière d'IA au Vietnam. Parmi celles-ci, un échange avec [Ho Duc Thang](https://vietnamnet.vn/en/artificial-intelligence-law-submitted-to-parliament-marks-tech-policy-milestone -2460927.html), contributeur aux [lois sur l'IA au Vietnam](https://en.baochinhphu.vn/first-ever-law-on-artificial-intelligence-approved-111251211093619398.htm), a mis en lumière une question clé : **comment le Vietnam peut-il développer des solutions d'IA souveraines tout en s'appuyant sur des technologies ouvertes et transparentes ?**
Le Vietnam entre dans une phase décisive pour définir son écosystème d'IA. Nos discussions avec les acteurs gouvernementaux, notamment les équipes du ministère des Sciences et de la Technologie (MOST), ont clairement montré que le développement de modèles d'IA en langue vietnamienne n'est pas seulement un défi technique, mais aussi une priorité stratégique. Aujourd'hui, le paysage mondial de l'IA est largement dominé par de grandes entreprises américaines et chinoises, qui fixent les normes en matière de performances et d'adoption.
Si ces solutions offrent des capacités solides, s'y fier exclusivement pourrait entraîner une dépendance stratégique et technologique croissante, en particulier dans des domaines sensibles tels que les services publics, la gouvernance des données et la gestion des connaissances en entreprise. Dans ce contexte, il est essentiel de développer les capacités locales et des alternatives souveraines en matière d'IA afin de garantir l'autonomie et le contrôle à long terme. Le MOST organise activement des [initiatives de benchmarking](https://vjst.vn/open-technology-will-be-a-strategic-choice-for-vietnam-in-the-digital-era-76600.html) afin d’évaluer les performances des grands modèles linguistiques (LLM) en vietnamien, créant ainsi un environnement dynamique et concurrentiel en phase avec la volonté générale du pays de promouvoir une IA ouverte et souveraine. Chez Linagora Vietnam, nous voyons cela comme une opportunité à la fois de contribuer à cet effort national et d'en tirer des enseignements.
Cette initiative s'inscrit dans le prolongement de notre stratégie produit. Nous intégrons activement une assistance basée sur l'IA dans notre suite collaborative, Twake Workplace, en mettant l'accent sur les fonctionnalités de gestion des e-mails et des documents. Bien que nous n'ayons actuellement aucun déploiement actif au Vietnam, la disponibilité d'un LLM vietnamien performant pourrait constituer un facteur de différenciation majeur pour pénétrer ce marché. En permettant une localisation de haute qualité et des fonctionnalités basées sur l'IA adaptées aux utilisateurs vietnamiens, cela renforcerait considérablement la pertinence et la compétitivité de Twake Workplace au sein de l'écosystème local.
Enfin, nous avons observé un intérêt marqué et croissant au sein des communautés technologiques vietnamiennes pour le développement de l'IA et les approches souveraines en matière d'IA. Cela s'est particulièrement manifesté lors de notre Open Tech Talk organisé en janvier 2026, où nous avons présenté nos initiatives en matière d'IA, notamment OpenRAG, à des étudiants de plusieurs universités. Le niveau d'engagement et de curiosité a confirmé la pertinence de notre approche et la demande en solutions d'IA ouvertes et pilotées localement. Forts de cette dynamique, nous avons lancé un programme de stages axé sur l'évaluation comparative et l'entraînement de modèles linguistiques vietnamiens. Nous avons depuis accueilli notre premier stagiaire dans ce domaine, qui travaille désormais en étroite collaboration avec l'équipe OpenRAG dirigée par Andrzej Neugebauer de LINAGORA France.
Vietnamese LLM Benchmark
Conformément à notre ambition de développer des projets d’IA à fort impact au Vietnam, comme indiqué ci-dessus, nous avons lancé le projet « Vietnamese LLM Benchmark ». L’objectif principal de ce projet est d’étudier le paysage actuel des grands modèles linguistiques (LLM) open source traitant la langue vietnamienne, d’établir une référence claire en matière de performances et d’identifier le modèle le plus adapté à une intégration dans nos initiatives OpenRAG.
Historiquement, les développeurs et les chercheurs ont été confrontés à un manque notable de suites d'évaluation complètes et standardisées, spécialement adaptées aux tâches de traitement du langage naturel (NLP) en vietnamien. Pour combler cette lacune et comprendre ce dont les modèles open source actuels sont réellement capables, nous avons développé le Benchmark LLM vietnamien. De plus, l'un des principaux objectifs de ce rapport est de faciliter la sélection d'un LLM vietnamien optimal pour un déploiement au sein du projet OpenRAG.
Models
Afin d'analyser en profondeur l'écosystème actuel, ce benchmark évalue trois modèles à poids ouverts distincts : Qwen3.5-9B, Qwen3-8B et Unicorn-VL-R3 (un modèle vietnamien optimisé).
Dataset
L'évaluation porte sur divers ensembles de données conçus pour tester différentes capacités cognitives et génératives. Nous avons utilisé quatre ensembles de données distincts pour cette évaluation :
VMLU
Un test de référence à choix multiples comprenant 744 questions couvrant un large éventail de connaissances et de niveaux de difficulté en matière de raisonnement.
UIT-ViSquAD2.0
Contient 1 000 paires question-réponse issues de 174 articles de Wikipédia en vietnamien. Il évalue la compréhension de contextes longs et inclut 10 % de questions sans réponse pour tester la capacité à éviter les hallucinations.
Entraînement vietnamien de synthèse de documents multiples (ViM)
Se compose de 100 groupes d'actualités nécessitant une synthèse abstraite de plusieurs documents, testant la cohérence et la synthèse.
Ensemble de données générales vietnamiennes (VTSNLP)
Un vaste ensemble de données comprenant 4,5 millions d'échantillons couvrant des tâches telles que la synthèse, la traduction, l'inférence et la génération de contenu.
En raison de contraintes matérielles, seuls environ 10 % de chaque ensemble de données ont été utilisés.
Méthode
Nous avons conçu un pipeline économe en mémoire qui charge séquentiellement chaque modèle pour générer des prédictions. Cette approche garantit que l'ensemble du benchmark peut s'exécuter sur un seul GPU facilement accessible, tel que le GPU Kaggle T4
Chaque question a été convertie en une invite autonome afin de simuler une utilisation en conditions réelles et de garantir une évaluation « zero-shot ». Cela empêche toute fuite de contexte entre les échantillons et garantit des conditions de test cohérentes.
Les performances ont été mesurées à l'aide de métriques standard, notamment la précision, la correspondance exacte (EM), le F1 et le ROUGE-L. De plus, pour les tâches ouvertes, nous avons utilisé une approche « LLM-as-judge ». SeaLLMs-v3-7B-Chat a noté les résultats sur une échelle de 1 à 10 en fonction de critères tels que la précision, la fidélité et la cohérence.
Résultat
Les résultats des tests comparatifs montrent que les modèles dotés d’un plus grand nombre de paramètres continuent de présenter un avantage certain en matière de récupération brute de connaissances et de précision. Il convient notamment de noter que Qwen3.5-9B a obtenu le meilleur taux de précision VMLU (75,91 %) et le meilleur score F1 ViSquAD2.0 (75,42 %).
Cependant, le modèle Unicorn-VL-R3 démontre que le réglage fin permet de combler rapidement l’écart de performances. Unicorn-VL-R3 a largement surpassé le modèle de référence Qwen3-8B en compréhension écrite. Surtout, il a obtenu le score ROUGE-L le plus élevé du benchmark, soit 50,73, sur la tâche complexe de synthèse de plusieurs documents (ViM). Cela suggère que le réglage fin a considérablement amélioré sa capacité à synthétiser, reformuler et organiser des informations disparates.
Lorsqu'ils ont été évalués par le juge LLM, les trois modèles ont obtenu des scores remarquablement similaires, se situant tous entre 7,48 et 7,62. Cela indique que, bien que la récupération factuelle exacte évolue avec la taille du modèle, la capacité fondamentale à générer un texte vietnamien cohérent, naturel et pertinent est déjà très performante dans les modèles open source accessibles aujourd'hui.
Conclusion et prochaines étapes
Dans un deuxième temps, nous prévoyons d'étendre ces travaux en exécutant le benchmark sur les ensembles de données complets, en tirant parti de l'infrastructure plus puissante fournie par OVHcloud. Cet environnement amélioré nous permettra d'obtenir des résultats plus complets et statistiquement fiables, tout en reflétant le même type de configuration de production que celle utilisée pour déployer nos solutions OpenRAG.
Au-delà de l'évaluation, nous considérons ce cadre de benchmarking comme un élément fondamental pour les développements futurs. Il offre un environnement structuré et reproductible pour entraîner, affiner et valider de manière itérative les modèles de langue vietnamienne, garantissant ainsi des progrès continus grâce à des gains de performance mesurables. En ce sens, le benchmarking n'est pas seulement un outil d'évaluation, il devient un élément central du cycle de vie du développement des modèles.