LUCIE — AI nguồn mở thực sự được xây dựng dựa trên tính minh bạch, tin cậy và hiệu quả.
LUCIE không chỉ là một hệ thống mở mà còn đặc biệt minh bạch và đáng tin cậy. Ngay từ khi được tạo ra, mọi quyết định đều được dẫn dắt bởi các nguyên tắc về sự tin cậy, công bằng và trách nhiệm. Dù là trong giáo dục, chính phủ hay nghiên cứu, LUCIE được thiết kế để trở thành một mô hình mà bạn có thể tin tưởng.

Nguồn gốc của chúng tôi
Hành trình phát triển LUCIE bắt đầu từ tháng 6 năm 2023, khi LINAGORA quyết định khởi xướng cộng đồng OpenLLM France, quy tụ các thành viên đóng góp (hơn 900 người vào tháng 1 năm 2025) nhằm xây dựng một mô hình AI tạo sinh mở phù hợp với các giá trị chung của châu Âu. Đến tháng 2 năm 2024, cộng đồng này phát triển thành OpenLLM Europe, với mục tiêu kết nối và củng cố các sáng kiến châu Âu cho những mô hình AI tạo sinh mở và có đạo đức. Để thúc đẩy tầm nhìn đó, LINAGORA đã dẫn dắt liên minh OpenLLM France, thành lập cùng 11 đối tác trong cộng đồng, nhằm tham gia lời kêu gọi dự án "Tài nguyên số chung trong lĩnh vực AI tạo sinh". Là một trong những dự án được lựa chọn của chương trình France 2030, liên minh này sẽ thực hiện sứ mệnh kéo dài hai năm, bắt đầu từ cuối năm 2024, để tạo ra các tài nguyên số chung về AI tạo sinh, tập trung đặc biệt vào giáo dục và lĩnh vực công nghệ giáo dục (EdTech). Một cột mốc quan trọng được thiết lập vào cuối năm 2023, khi LINAGORA bắt đầu huấn luyện LUCIE với sự hỗ trợ của cộng đồng, đặc biệt là từ GENCI (Thiết bị Tính toán Hiệu năng cao Quốc gia) nhằm truy cập vào siêu máy tính Jean Zay. Đến tháng 1 năm 2025, việc ra mắt LUCIE đánh dấu một bước tiến quan trọng trong việc cung cấp một mô hình AI thực sự mã nguồn mở, có đạo đức và hiệu quả cho châu Âu và hơn thế nữa.
Điều gì khiến LUCIE thực sự là mã nguồn mở?
Dữ liệu minh bạch
Tất cả các bộ dữ liệu huấn luyện đều được mở và cấp phép cho mục đích sử dụng công cộng. Từ quá trình thu thập đến chọn lọc, chúng tôi đảm bảo tính minh bạch ở mọi giai đoạn.
Thuật toán công khai
Phương pháp huấn luyện, quy trình tối ưu hóa và "bí quyết riêng" của chúng tôi đều được ghi chép đầy đủ và công khai, để bất kỳ ai cũng có thể tìm hiểu, sử dụng và cải tiến.
Mô hình truy cập tự do
Trọng số, điểm kiểm tra và mã nguồn của LUCIE được phát hành theo giấy phép Apache 2.0. Đây là một giấy phép linh hoạt, không hạn chế, cho phép bất kỳ ai trên toàn thế giới sử dụng, điều chỉnh và triển khai mô hình cho bất kỳ mục đích nào, đảm bảo khả năng tiếp cận thực sự và thúc đẩy đổi mới trên phạm vi toàn cầu.
Thiết kế cho chủ quyền và tính bền vững
LUCIE được tạo ra để giải quyết những thách thức đặc thù trong việc xây dựng một hệ thống AI có đạo đức, hiệu quả và dễ tiếp cận.
Chủ quyền châu Âu
LUCIE thể hiện cam kết đối với các giá trị châu Âu, tôn trọng sự đa dạng văn hóa, thúc đẩy phát triển AI một cách có đạo đức và tuân thủ Đạo luật AI.
Nhỏ gọn và hiệu quả
Được tối ưu hóa cho các môi trường có tài nguyên hạn chế, kiến trúc của LUCIE cho phép triển khai trên hạ tầng "thiếu GPU" và thậm chí trên cả thiết bị di động.
Trách nhiệm sinh thái
Bằng cách ưu tiên chất lượng hơn số lượng trong dữ liệu huấn luyện, chúng tôi đảm bảo giảm thiểu tác động môi trường mà không làm ảnh hưởng đến hiệu suất.
Trải nghiệm LUCIE ngay
Bạn có thể trực tiếp trải nghiệm khả năng của LUCIE thông qua nền tảng SaaS chuyên dụng của chúng tôi, hiện đã có tại LUCIE.chat. Dù bạn muốn khám phá hiệu suất mô hình hay tích hợp nó vào quy trình làm việc của mình, nền tảng này đều mang đến khả năng truy cập liền mạch vào các tính năng của LUCIE.
Dùng thử ngay
LUCIE qua các con số
7 tỷ tham số
Taille du modèle : 7 milliards de paramètres – compact et optimisé pour des performances élevées dans diverses applications. En 2025, nous construirons une version plus compacte de LUCIE (<3B)
3,1 nghìn tỷ token
Tập dữ liệu huấn luyện: 3,1 nghìn tỷ token, được tuyển chọn kỹ lưỡng nhằm cân bằng giữa chất lượng và sự đa dạng, bao gồm tiếng Pháp, tiếng Anh, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và mã lập trình.
600 nghìn giờ GPU
Giờ huấn luyện: Hơn 600.000 giờ GPU trên siêu máy tính Jean Zay, sử dụng đồng thời 512 GPU NVIDIA H100.
Ngôn ngữ được hỗ trợ
Hỗ trợ đa ngôn ngữ, với trọng tâm đặc biệt vào tiếng Pháp và các ngôn ngữ chính của châu Âu, nhằm đảm bảo sự đại diện về văn hóa và ngôn ngữ.
2023-2025
Lộ trình phát triển: Quá trình huấn luyện bắt đầu vào cuối năm 2023 và mô hình được phát hành vào tháng 1 năm 2025.
Tương lai của LUCIE vào năm 2025
Hành trình của LUCIE chưa dừng lại ở đó. Lộ trình năm 2025 của chúng tôi đề ra các mục tiêu đầy tham vọng để nâng cao năng lực và mở rộng phạm vi ứng dụng của mô hình:
Cải tiến quá trình tinh chỉnh và cung cấp bộ công cụ tốt hơn cho các nhà phát triển AI
Chúng tôi sẽ nâng cao khả năng làm theo hướng dẫn (fine-instruct) của LUCIE, giới thiệu tính năng gọi hàm để tích hợp tốt hơn với các hệ thống bên ngoài, đồng thời phát hành ít nhất một mô hình dưới 3 tỷ tham số nhằm đảm bảo khả năng tiếp cận trong các môi trường có tài nguyên hạn chế.
Tạo sinh nâng cao kết hợp truy xuất (RAG) tiên tiến
LUCIE sẽ được trang bị chức năng RAG nâng cao, cho phép khai thác các cơ sở tri thức bên ngoài để cung cấp câu trả lời chính xác và phù hợp hơn với ngữ cảnh.
Mở rộng đa phương thức với khả năng nhận diện giọng nói
Chúng tôi sẽ mở rộng khả năng của LUCIE sang lĩnh vực AI đa phương thức, tập trung vào xử lý giọng nói tiếng Pháp, mở ra nhiều cơ hội ứng dụng mới trong giáo dục, hỗ trợ tiếp cận và các lĩnh vực khác.
Khung AI tác nhân
LUCIE sẽ phát triển thành một nền tảng AI tác nhân vững chắc, tận dụng năng lực của mình để hỗ trợ các hệ thống tự động và làm nền tảng cho các Mô hình Hành động Lớn (LAM), đồng thời duy trì tính minh bạch, sự tin cậy và các cam kết đạo đức.
Tham gia phong trào LUCIE
LUCIE không chỉ là một mô hình, mà là nỗ lực của cộng đồng nhằm định nghĩa lại tương lai của AI. Bằng cách tham gia cùng chúng tôi, bạn đang giúp xây dựng AI phù hợp với các giá trị chung của chúng tôi về sự cởi mở, minh bạch và tin cậy.