OpenAI mở cửa AI với GPT-OSS tham gia cuộc đua mã nguồn mở

Tóm tắt nhanh
OpenAI đã gây bất ngờ lớn khi phát hành hai mô hình mã nguồn mở mới, GPT-OSS-120B và GPT-OSS-20B, dưới giấy phép Apache 2.0, đánh dấu sự tái gia nhập vào 'cuộc đua mô hình mở' sau sáu năm gián đoạn. Các mô hình 'open-weight' này cung cấp hiệu suất mạnh mẽ, các khả năng nâng cao như kiến trúc MoE và suy luận CoT, đồng thời hỗ trợ fine-tune và gọi hàm. Động thái này không chỉ thúc đẩy quyền riêng tư, tiết kiệm chi phí mà còn khuyến khích đổi mới trong cộng đồng AI, mặc dù vẫn còn tranh cãi về định nghĩa 'mã nguồn mở' thực sự.
Có vẻ như đổ vỡ với Microsoft đã khiến OpenAI điều chỉnh đáng kể chiến lược tiếp cận rộng rãi tới người dùng AI khi họ đã công bố phát hành 2 model mã nguồn mở mới là gpt-oss-120b và gpt-oss-20b với kích thước lần lượt là 20 tỷ và 120 tỷ tham số (parameter chứ hoàn toàn không phải neuron).
Đặc biệt là 2 mô hình này đều có mã nguồn mở với giấy phép Apache 2.0 rất tự do. Vậy thì giấy phép Apache 2.0 là gì? Có thể nhiều người vẫn chưa biết về giấy phép mở này thực sự rất dài nhưng tóm gọn lại là với giấy phép Apache 2.0 này người dùng hoàn toàn được tự do dùng và chỉnh sửa, phân phối lại cũng không cần mở mã nguồn, kể cả kiếm tiền với GPT-OSS cũng được thậm chí không cần trả khoản phí gì cho Open AI, chỉ cần giữ nguyên bản quyền tác giả là được.
Như vậy với động thái này báo hiệu việc OpenAI tái gia nhập "cuộc đua mô hình mở" sau sáu năm gián đoạn, sánh vai cùng các đối thủ như Meta, Deepseek và Mistral.
GPT-OSS là gì? Hiểu rõ về "Open-Weight"
Thuật ngữ "GPT-OSS" dùng để chỉ hai mô hình ngôn ngữ mới này, với kích thước lần lượt là 20 tỷ và 120 tỷ tham số. Quan trọng là, OpenAI đã phát hành chúng dưới dạng các mô hình "open-weight", nghĩa là các trọng số đã được huấn luyện của mô hình AI được công khai cho phép tải về và sử dụng trực tiếp trên máy của người dùng. Điều này cho phép các nhà phát triển kiểm tra và tinh chỉnh cách các mô hình hoạt động.
Tuy nhiên, đây không phải là một bản phát hành "mã nguồn mở" đầy đủ theo nghĩa truyền thống, vì OpenAI chưa công bố công khai mã code huấn luyện gốc hoặc các tập dữ liệu thô được sử dụng để huấn luyện các mô hình này. Ngược lại, một mô hình thực sự mã nguồn mở sẽ cung cấp toàn bộ mã nguồn, tài liệu huấn luyện, trọng số và đôi khi cả tập dữ liệu, cho phép cộng đồng xem, sửa đổi và thậm chí huấn luyện lại mô hình. Mặc dù sự khác biệt này còn gây tranh cãi trong cộng đồng mã nguồn mở, OpenAI nhấn mạnh rằng bản phát hành này là một bước đi tiếp theo sau sáu năm hướng tới việc làm cho lợi ích của AI trở nên dễ tiếp cận rộng rãi.
Hiệu suất vượt trội và khả năng nâng cao
Dù "mở", hiệu năng của GPT-OSS vẫn rất đáng gờm. Các bài kiểm tra (benchmark) cho thấy nó có thể cạnh tranh với mô hình đóng của Open AI :
- GPT-OSS-120B: Gần tương đương với o4-mini trong các tác vụ suy luận cốt lõi, mô hình này yêu cầu GPU 80GB trở lên.
- GPT-OSS-20B: Tương tự o3-mini, có thể chạy trên phần cứng tiêu dùng với 16GB bộ nhớ.
So sánh hiệu suất GPT-OSS
GPQA diamond
Câu hỏi khoa học cấp tiến sĩ (không dùng tools)
MMLU
Câu hỏi lĩnh vực học thuật
AIME 2025
Câu hỏi toán thi đấu
Các điểm nổi bật về kiến trúc và khả năng chính bao gồm:
- Kiến trúc Mixture-of-Experts (MoE): Cả hai mô hình đều sử dụng thiết kế MoE, kích hoạt ít tham số hơn trên mỗi token (5,1 tỷ cho 120B và 3,6 tỷ cho 20B) để xử lý hiệu quả truy vấn.
- Suy luận Chain-of-Thought (CoT): GPT-OSS hỗ trợ khả năng suy luận nâng cao, cho phép các nhà phát triển cấu hình các mức độ nỗ lực suy luận khác nhau (thấp, trung bình hoặc cao) để cân bằng tốc độ và độ chính xác. Các mô hình có thể hiển thị toàn bộ chuỗi suy luận nội bộ của chúng, điều này có thể hỗ trợ gỡ lỗi logic của chúng.
- Sử dụng công cụ và đầu ra có cấu trúc: Các mô hình được thiết kế cho các trường hợp sử dụng nâng cao bao gồm sử dụng công cụ, chẳng hạn như công cụ duyệt web để tương tác web và công cụ Python để thực thi mã trong môi trường sổ ghi chép Jupyter.
- Huấn luyện chuyên sâu: Được huấn luyện trên hàng nghìn tỷ token chỉ bằng văn bản tập trung vào STEM, mã hóa và kiến thức tổng quát, sử dụng GPU NVIDIA H100 và PyTorch. Thời điểm cắt dữ liệu kiến thức của các mô hình là tháng 6 năm 2024.
- Định dạng OpenAI Harmony: Một dự án mã nguồn mở mới từ OpenAI, Harmony, cung cấp một định dạng phản hồi mới lạ cho các mẫu lời nhắc, giới thiệu các vai trò như system, developer, user, assistant, và tool, cùng với các kênh đầu ra riêng biệt cho final (hướng tới người dùng), analysis (chuỗi suy luận), và commentary (liên quan đến công cụ). Cấu trúc này nâng cao khả năng của mô hình trong việc quản lý các tương tác phức tạp.
Ý nghĩa và lợi ích đối với hệ sinh thái AI
Quyết định phát hành các mô hình GPT-OSS miễn phí được xem là một động thái chiến lược của OpenAI nhằm lấy lại vị thế trong bối cảnh AI đang ngày càng cạnh tranh. Bằng cách cung cấp các mô hình "open-weight" mạnh mẽ, OpenAI không chỉ thúc đẩy đổi mới mà còn trao quyền cho các nhà phát triển và doanh nghiệp.
Điều này mang lại nhiều lợi ích đáng kể:
- Tăng cường quyền riêng tư: Các doanh nghiệp, đặc biệt trong các ngành yêu cầu bảo mật cao như y tế hay tài chính, có thể triển khai mô hình cục bộ (on-premise) để bảo vệ dữ liệu nhạy cảm.
- Tiết kiệm chi phí: Việc triển khai cục bộ giúp giảm độ trễ và chi phí sử dụng API thương mại.
- Thúc đẩy đổi mới: Cộng đồng có thể tự do tinh chỉnh và phát triển các giải pháp AI tiên tiến dựa trên các mô hình này.
Có hỗ trợ tinh chỉnh (Fine-Tune) và gọi hàm (Function Calling)
Các mô hình GPT-OSS được thiết kế hoàn toàn có thể tinh chỉnh (fine-tune), mặc dù không có mã code huấn luyện gốc. Chúng đã được tích hợp vào thư viện transformers của Hugging Face và hỗ trợ các kỹ thuật fine-tune tiết kiệm tài nguyên như LoRA, PEFT, và QLoRA.
Tất nhiên là GPT-OSS có hỗ trợ function calling cho phép mô hình gọi và xử lý kết quả từ các hàm hoặc API bên ngoài trong quá trình hội thoại. Thật sự đây là thứ mà không thể thiếu đối với các mô hình hiện nay để tăng tính kết nối.
Mặc dù việc sử dụng fine-tune mà không có script huấn luyện gốc có thể phức tạp hơn, hoàn toàn không dễ dàng với người thiếu kinh nghiệm nhưng các nhà phát triển nên thử các nền tảng như Unsloth đã phát triển các giải pháp tùy chỉnh và kỹ thuật offloading để làm cho mọi việc dễ dàng hơn đôi chút, cho phép huấn luyện LoRA GPT-OSS-20b trên VRAM 14GB và GPT-OSS-120b trên VRAM 65GB.
Cách tiếp cận và triển khai:
- Hugging Face: Thông qua dịch vụ Inference Providers mà họ đã cung cấp bản demo chính thức của OpenAI.
- Triển khai trên chính máy của người dùng (Local Inference): Được hỗ trợ bởi các thư viện như transformers, vLLM, llama.cpp, và ollama. Ví dụ, mô hình 20B có thể chạy trên Macbook, Mac mini chỉ với RAM 32GB.
- Có thể chạy thông qua Docker.
- Nền tảng cloud : Có sẵn trên các nền tảng như Azure AI Model Catalog và Dell Enterprise Hub cho các triển khai doanh nghiệp an toàn.
Các nhà phát triển có thể sử dụng nhiều tối ưu hóa khác nhau để tăng tốc độ suy luận, bao gồm lượng tử hóa MXFP4 cho GPU Hopper hoặc Blackwell, Flash Attention 3 và MegaBlocks MoE kernels.
Cam kết mạnh mẽ và tranh cãi xoay quanh GPT-OSS
Mặc dù mô hình được cộng đồng đón nhận tích cực, nhưng đã không còn tính wow khi nói về "tính mở" của nó. Sự khác biệt giữa "open-weight" và "open-source" vẫn là một điểm gây tranh cãi đối với một số người ủng hộ sự minh bạch hoàn toàn, mà còn ở những đối thủ của Open AI đã làm trước đây rất lâu rồi.
Ngoài ra, trong quá trình thử nghiệm, một số trường hợp mô hình gpt-oss-20b "rò rỉ" thông tin chuỗi suy luận nội bộ đã được quan sát, mặc dù OpenAI đã chỉ ra rằng đây là một hành vi được mong đợi để cho phép giám sát và tránh các mô hình che giấu dấu vết của chúng.
Tóm lại, các mô hình GPT-OSS của OpenAI với quá trình thể hiện chắc chắn vẫn chưa hoàn hảo mà chỉ để thể hiện cam kết mạnh mẽ đối với việc làm cho AI trở nên dễ tiếp cận hơn.



