AI Chủ quyền cho Việt Nam : Hành trình AI Mã nguồn Mở của Linagora tại Việt Nam

AI Chủ quyền cho Việt Nam : Hành trình AI Mã nguồn Mở của Linagora tại Việt Nam

Xây dựng AI Tiếng Việt Có Chủ quyền

Vào tháng 10 năm 2025, trong khuôn khổ một sự kiện về AI tại Ninh Bình, Alexandre Zapolsky, Chủ tịch của LINAGORA, đã tham gia một loạt các cuộc thảo luận góp phần định hình chiến lược AI của chúng tôi tại Việt Nam. Trong đó, cuộc trao đổi với ông Hồ Đức Thắng, một thành viên đóng góp cho các luật về AI tại Việt Nam, đã đặt ra một câu hỏi then chốt: làm thế nào để Việt Nam xây dựng các giải pháp AI chủ quyền trong khi vẫn dựa trên các công nghệ mã nguồn mở và minh bạch?

Việt Nam đang bước vào giai đoạn quyết định trong việc định hình hệ sinh thái AI. Qua các cuộc thảo luận với các bên liên quan trong chính phủ, bao gồm các nhóm thuộc Bộ Khoa học và Công nghệ (MOST), có thể thấy rõ rằng việc phát triển các mô hình AI tiếng Việt không chỉ là thách thức kỹ thuật mà còn là ưu tiên chiến lược. Hiện nay, bức tranh toàn cảnh AI toàn cầu phần lớn do các tập đoàn lớn của Mỹ và Trung Quốc chi phối, là những đơn vị đang thiết lập các tiêu chuẩn về hiệu năng và mức độ áp dụng. Mặc dù các giải pháp này có năng lực mạnh mẽ, tuy nhiên việc phụ thuộc hoàn toàn vào chúng có thể dẫn đến sự lệ thuộc chiến lược và công nghệ ngày càng sâu, đặc biệt trong các lĩnh vực nhạy cảm như dịch vụ công, quản trị dữ liệu và quản lý tri thức doanh nghiệp. Trong bối cảnh đó, việc phát triển năng lực nội địa và các giải pháp AI chủ quyền là điều thiết yếu để đảm bảo quyền tự chủ và kiểm soát lâu dài. MOST đã tích cực tổ chức các hoạt động đánh giá chuẩn (benchmarking) nhằm đánh giá hiệu năng của các mô hình ngôn ngữ lớn (LLM) tiếng Việt, tạo ra một môi trường năng động và cạnh tranh phù hợp với định hướng chung của quốc gia về AI mở và chủ quyền. Tại Linagora Vietnam, chúng tôi xem đây là cơ hội để vừa đóng góp vừa học hỏi từ nỗ lực cấp quốc gia này.

Tham vọng của chúng tôi gắn liền một cách tự nhiên với tầm nhìn đó. Với xuất phát điểm với DNA mã nguồn mở, chúng tôi mang đến kinh nghiệm thực tiễn, kinh nghiệm toàn cầu trong việc phát triển các mô hình ngôn ngữ lớn mã nguồn mở thông qua cộng đồng OpenLLM France và mô hình LLM chủ quyền mã nguồn mở Lucie được phát triển tại Pháp. Dựa trên kinh nghiệm đó, chúng tôi hướng đến xây dựng một LLM tiếng Việt mạnh mẽ, không chỉ để đảm bảo độ chính xác về ngôn ngữ, mà còn để nắm bắt các sắc thái văn hóa và ngữ cảnh mà các mô hình toàn cầu thường bỏ qua. Rộng hơn, chúng tôi tin rằng để cạnh tranh với các hệ sinh thái AI thống trị của Mỹ và Trung Quốc, cần vượt ra ngoài các dự án đơn lẻ theo từng ngôn ngữ, thay vào đó cần kết hợp tri thức, nguồn lực và kinh nghiệm trong một cộng đồng mã nguồn mở toàn cầu.

Sáng kiến này gắn chặt với chiến lược sản phẩm của chúng tôi. Chúng tôi đang tích cực tích hợp các trợ lý AI vào bộ công cụ cộng tác Twake Workplace, với trọng tâm là các tính năng email và quản lý tài liệu. Mặc dù hiện tại chúng tôi chưa có triển khai thực tế tại Việt Nam, việc có một LLM tiếng Việt hiệu năng cao có thể trở thành yếu tố khác biệt quan trọng để thâm nhập thị trường này. Bằng cách cung cấp khả năng bản địa hóa chất lượng cao và các tính năng được hỗ trợ bởi AI được điều chỉnh phù hợp cho người dùng Việt Nam, điều này sẽ củng cố đáng kể sự phù hợp và tính cạnh tranh của Twake Workplace trong hệ sinh thái địa phương.

Cuối cùng, chúng tôi nhận thấy sự quan tâm mạnh mẽ và ngày càng tăng trong cộng đồng công nghệ Việt Nam đối với việc phát triển AI và các hướng tiếp cận AI có chủ quyền. Điều này cũng thể hiện rõ qua sự kiện Open Tech Talk do chúng tôi tổ chức vào tháng 1 năm 2026, nơi chúng tôi trình bày các sáng kiến AI của mình, bao gồm OpenRAG, tới sinh viên từ nhiều trường đại học. Mức độ tương tác và sự hiếu kỳ của người tham dự đã khẳng định tính phù hợp của hướng tiếp cận của chúng tôi và nhu cầu đối với các giải pháp AI mở, được dẫn dắt bởi cộng đồng địa phương. Dựa trên đà phát triển đó, chúng tôi đã khởi động chương trình thực tập tập trung vào việc đánh giá chuẩn và huấn luyện các mô hình ngôn ngữ tiếng Việt. Kể từ đó, chúng tôi đã tiếp nhận thực tập sinh đầu tiên về mảng này, người hiện đang cộng tác chặt chẽ với nhóm OpenRAG do Andrzej Neugebauer từ LINAGORA France dẫn dắt. Sự hợp tác này minh chứng cho cam kết của chúng tôi trong việc phát triển nhân tài địa phương, đồng thời đóng góp cho một hệ sinh thái AI mã nguồn mở rộng lớn hơn ở quy mô quốc tế.

 

Benchmark LLM tiếng Việt

Tiếp nối tham vọng phát triển các dự án AI có tác động tại Việt Nam như đã nêu trên, chúng tôi đã khởi động dự án Vietnamese LLM Benchmark. Mục tiêu chính của dự án này là khảo sát bức tranh hiện tại của các mô hình ngôn ngữ lớn (LLM) mã nguồn mở xử lý tiếng Việt, thiết lập đường cơ sở hiệu năng rõ ràng, và xác định mô hình phù hợp nhất để tích hợp vào các sáng kiến OpenRAG của chúng tôi.

Trong quá khứ, các nhà phát triển và nhà nghiên cứu đã đối mặt với tình trạng thiếu hụt đáng kể các bộ đánh giá toàn diện và chuẩn hóa được thiết kế riêng cho các tác vụ Xử lý Ngôn ngữ Tự nhiên (NLP) tiếng Việt. Để lấp đầy khoảng trống này và hiểu rõ khả năng thực sự của các mô hình mã nguồn mở hiện tại, chúng tôi đã xây dựng Vietnamese LLM Benchmark. Ngoài ra, một mục tiêu quan trọng của báo cáo này là hỗ trợ việc lựa chọn LLM tiếng Việt tối ưu để triển khai trong dự án OpenRAG.

 

Các mô hình

Để đánh giá toàn diện hệ sinh thái hiện tại, benchmark này đánh giá ba mô hình open-weights riêng biệt: Qwen3.5-9B, Qwen3-8BUnicorn-VL-R3 (một mô hình được tinh chỉnh cho tiếng Việt).

Bộ dữ liệu

Quá trình đánh giá trải rộng trên nhiều bộ dữ liệu đa dạng được thiết kế để kiểm tra các năng lực nhận thức và sinh ngôn ngữ khác nhau. Chúng tôi sử dụng bốn bộ dữ liệu riêng biệt:

VMLU

Một benchmark trắc nghiệm gồm 744 câu hỏi bao phủ nhiều lĩnh vực kiến thức và các mức độ suy luận khác nhau.

UIT-ViSquAD2.0

Bao gồm 1.000 cặp hỏi-đáp từ 174 bài viết Wikipedia tiếng Việt. Bộ dữ liệu này đánh giá khả năng hiểu văn bản dài và bao gồm 10% câu hỏi không thể trả lời để kiểm tra khả năng tránh ảo giác (hallucination avoidance).

Vietnamese Multiple Document Summarization Dataset (ViM)

Gồm 100 cụm tin tức yêu cầu tóm tắt trừu tượng (abstractive summarization) trên nhiều tài liệu, kiểm tra tính mạch lạc và khả năng tổng hợp thông tin.

Vietnamese Instruct General Dataset (VTSNLP)

Một bộ dữ liệu lớn gồm 4,5 triệu mẫu bao phủ các tác vụ như tóm tắt, dịch thuật, suy luận và sinh nội dung.

Do hạn chế về phần cứng, chỉ khoảng 10% mỗi bộ dữ liệu được sử dụng.

 

Phương pháp

Chúng tôi thiết kế một pipeline tiết kiệm bộ nhớ, tải tuần tự từng mô hình để tạo kết quả dự đoán. Cách tiếp cận này đảm bảo benchmark có thể chạy trên một GPU đơn, dễ tiếp cận, như GPU T4 trên Kaggle.

Mỗi câu hỏi được chuyển đổi thành một câu lệnh độc lập nhằm mô phỏng điều kiện sử dụng thực tế và đảm bảo đánh giá zero-shot. Điều này ngăn chặn rò rỉ ngữ cảnh giữa các mẫu và đảm bảo điều kiện kiểm tra nhất quán.

Hiệu năng được đo lường bằng các chỉ số chuẩn gồm Accuracy (Độ chính xác), Exact Match (EM), F1 và ROUGE-L. Ngoài ra, đối với các tác vụ mở, chúng tôi sử dụng phương pháp "LLM-as-judge" (LLM làm giám khảo). Mô hình SeaLLMs-v3-7B-Chat chấm điểm đầu ra trên thang từ 1 đến 10 dựa trên các tiêu chí như độ chính xác, tính trung thực và tính mạch lạc.

 

Résultat

Bộ dữ liệuChỉ sốQwen 3.5 9BQwen 3 8BUnicorn-VL-R3
VMLUAccuracy75.91%66.67%67.07%
ViSquAD2.0F175.42%50.75%67.73%
ViSquAD2.0EM48.90%6.90%39.20%
ViMROUGE-L46.6945.7350.73
ViMLLM-as-judge7.487.627.59
VTSNLPLLM-as-judge7.577.527.53

Kết quả benchmark cho thấy các mô hình có số lượng tham số lớn hơn vẫn duy trì lợi thế rõ rệt về khả năng truy xuất kiến thức thô và độ chính xác. Đáng chú ý, Qwen3.5-9B đạt Accuracy cao nhất trên VMLU với 75,91% và F1 cao nhất trên ViSquAD2.0 với 75,42%.

Tuy nhiên, mô hình Unicorn-VL-R3 chứng minh rằng tinh chỉnh (fine-tuning) có thể thu hẹp khoảng cách hiệu năng một cách nhanh chóng. Unicorn-VL-R3 vượt trội đáng kể so với mô hình nền tảng Qwen3-8B trong tác vụ đọc hiểu. Đặc biệt, mô hình này đạt điểm ROUGE-L cao nhất trong benchmark là 50,73 trên tác vụ tóm tắt đa tài liệu phức tạp (ViM). Điều này cho thấy tinh chỉnh đã cải thiện đáng kể khả năng tổng hợp, diễn đạt lại và tổ chức các mảnh thông tin rời rạc.

Khi được đánh giá bởi LLM làm giám khảo, cả ba mô hình đạt điểm tương đồng đáng kể, tập trung trong khoảng hẹp từ 7,48 đến 7,62. Điều này cho thấy rằng trong khi khả năng truy xuất thông tin chính xác tỷ lệ thuận với kích thước mô hình, thì năng lực nền tảng để sinh ra văn bản tiếng Việt mạch lạc, tự nhiên và phù hợp đã ở mức cao trong các mô hình mã nguồn mở dễ tiếp cận hiện nay.

 

Kết luận và Các Bước Tiếp Theo

Trong bước tiếp theo, chúng tôi dự kiến mở rộng công việc này bằng cách chạy benchmark trên toàn bộ các bộ dữ liệu, tận dụng cơ sở hạ tầng mạnh hơn do OVHcloud cung cấp. Môi trường nâng cấp này sẽ cho phép thu được kết quả toàn diện và đáng tin cậy hơn về mặt thống kê, đồng thời phản ánh cùng loại thiết lập sản xuất được sử dụng để triển khai các giải pháp OpenRAG của chúng tôi.

Ngoài việc đánh giá, chúng tôi xem framework đánh giá chuẩn này là nền tảng cho các phát triển trong tương lai. Nó cung cấp một môi trường có cấu trúc và có thể tái tạo để huấn luyện, tinh chỉnh và kiểm định các mô hình ngôn ngữ tiếng Việt theo từng vòng lặp, đảm bảo tiến bộ liên tục được thúc đẩy bởi các cải thiện hiệu năng có thể đo lường được. Theo nghĩa đó, đánh giá chuẩn không chỉ là công cụ thẩm định, mà trở thành một thành phần cốt lõi trong vòng đời phát triển mô hình.