Cảnh quan LLM open-source vừa trải qua tuần quan trọng nhất trong năm 2026. Meta phát hành dòng Llama 4 — Scout, Maverick và preview của Behemoth — trong khi Google phản công bằng Gemma 4, một gia đình bốn kích thước từ 2B đến 31B tham số. Cả hai thông báo đều có trọng lượng thực sự với các team kỹ thuật đang đưa ra quyết định hạ tầng ngay lúc này.
Tôi đã dành vài ngày qua nghiên cứu kỹ thông số kỹ thuật, dữ liệu benchmark và hệ quả triển khai. Đây là nhận định thực tế của tôi với tư cách là người đã tích hợp nhiều mô hình open-source vào hệ thống production.
Meta Đã Thực Sự Xây Dựng Gì với Llama 4
Câu chuyện tiêu đề không phải là con số tham số — mà là sự chuyển đổi kiến trúc. Llama 4 là thế hệ đầu tiên của Meta áp dụng Mixture-of-Experts (MoE) một cách tự nhiên trên toàn bộ dòng sản phẩm, kết hợp với khả năng đa phương thức thực sự được tích hợp vào quá trình huấn luyện (không phải gắn thêm sau).
Ba Mô Hình và Chúng Thực Sự Dùng Cho Gì
Llama 4 Scout — 17B tham số active, 16 experts, vừa vào một GPU H100 với lượng hóa Int4. Tính năng nổi bật: context window 10 triệu token. Đây không phải con số marketing. Tương đương khoảng 7.500 trang văn bản — toàn bộ codebase, bộ tài liệu pháp lý, hay lịch sử hội thoại trong cả năm — tất cả trong context cùng một lúc. Scout vượt trội hơn Gemma 3, Gemini 2.0 Flash-Lite và Mistral 3.1 trên các benchmark chuẩn trong khi chỉ chạy trên một GPU.
Llama 4 Maverick — Cùng 17B tham số active nhưng mở rộng đến 128 experts, vẫn vừa vào một host H100. Context window giảm xuống 1 triệu token (vẫn là 1.500 trang). Trên GPQA Diamond (benchmark suy luận cấp sau đại học), Maverick đạt 69.8 — hơn 16 điểm so với GPT-4o ở mức 53.6.
Llama 4 Behemoth — 288B tham số active, 16 experts, vẫn đang huấn luyện. Dữ liệu checkpoint sớm cho thấy nó đã vượt trội GPT-4.5, Claude Sonnet 3.7 và Gemini 2.0 Pro trên các benchmark STEM. Đây là nước đi ở biên giới frontier.
Lợi Thế MoE Trong Triển Khai
Điều quan trọng về mặt vận hành: các mô hình MoE chỉ kích hoạt một tập con tham số cho mỗi token. Scout có 17B active nhưng có thể hơn 100B tham số tổng — nhưng bạn chỉ trả chi phí tính toán của 17B mỗi lần forward pass. Điều này thay đổi đáng kể phương trình chi phí cho inference thông lượng cao.
# So sánh chi phí ước tính cho 1M token được xử lý
# Mô hình dense truyền thống (tương đương 100B params)
dense_cost_per_1m = 0.80 # USD, giá cloud điển hình
# Mô hình MoE (17B active / 100B total)
moe_active_ratio = 17 / 100 # 17% active
moe_cost_per_1m = dense_cost_per_1m * moe_active_ratio # ~$0.14
# Tiết kiệm mỗi triệu token
savings = dense_cost_per_1m - moe_cost_per_1m # ~$0.66
Ở quy mô lớn, con số này rất đáng kể. Các team chạy hàng triệu lần inference mỗi ngày sẽ nhận ra điều này.
Gemma 4 của Google: Chiến Lược On-Device
Trong khi Meta đặt cược lớn vào context và benchmark, Google đi theo hướng khác với Gemma 4. Bốn kích thước: E2B, E4B, 26B MoE và 31B Dense. Mô hình 31B hiện xếp hạng #3 trong tất cả các mô hình open-source trên bảng xếp hạng Arena AI. Mô hình 26B đứng thứ #6.
Điều Làm Cho Gemma 4 Khác Biệt
Audio và video gốc — các mô hình E2B và E4B xử lý audio và video như đầu vào hạng nhất, không qua các giai đoạn encoder riêng biệt. Với ứng dụng giọng nói và video, điều này đơn giản hóa kiến trúc đáng kể.
Context 128K đến 256K — nhỏ hơn 10M của Llama 4 Scout, nhưng đủ cho hầu hết các use case production, và các mô hình được tối ưu hóa cho độ trễ thấp ở kích thước cửa sổ này.
Thiết kế ưu tiên agentic — function calling tự nhiên, structured JSON output và hỗ trợ system instruction được tích hợp vào base models. Không fine-tune thêm, mà được huấn luyện từ đầu với các agentic workflow trong tầm nhìn.
Linh hoạt triển khai — Vertex AI, Cloud Run, GKE, Sovereign Cloud, phục vụ tăng tốc TPU. Nếu bạn đã ở GCP, đây là con đường không ma sát.
# Ví dụ: Structured output của Gemma 4 cho tác vụ agentic
from vertexai.generative_models import GenerativeModel
model = GenerativeModel("gemma-4-31b")
response = model.generate_content(
"Phân tích codebase này và xác định các lỗ hổng bảo mật",
generation_config={
"response_mime_type": "application/json",
"response_schema": {
"type": "object",
"properties": {
"vulnerabilities": {"type": "array"},
"severity": {"type": "string"},
"recommendations": {"type": "array"}
}
}
}
)
So Sánh Trực Tiếp: Từng Mô Hình Thắng Ở Đâu
| Use Case | Thắng | Lý Do |
|---|---|---|
| Phân tích tài liệu dài | Llama 4 Scout | Context window 10M token |
| Suy luận phức tạp | Llama 4 Maverick | Điểm GPQA cao hơn |
| On-device / edge | Gemma 4 E2B/E4B | Tối ưu cho phần cứng mobile/edge |
| Workflow tích hợp GCP | Gemma 4 | Hỗ trợ Vertex AI, Cloud Run tự nhiên |
| Xử lý audio/video | Gemma 4 | Đa phương thức tự nhiên trên mô hình nhỏ hơn |
| Inference bị ràng buộc chi phí | Llama 4 Scout | Triển khai đơn GPU, hiệu quả MoE |
| Suy luận frontier (tương lai) | Llama 4 Behemoth | 288B tham số active |
Khuyến Nghị Thực Tế Của Tôi
Với hầu hết các team kỹ thuật trong năm 2026, tôi đề xuất:
Bắt đầu với Gemma 4 (26B hoặc 31B) nếu bạn đang ở GCP — câu chuyện triển khai được quản lý là rõ ràng nhất, khả năng agentic đã sẵn sàng cho production, và hiệu suất benchmark là thực chất. Tích hợp Vertex AI có nghĩa là bạn có thể đi từ mô hình đến API production trong vài giờ.
Sử dụng Llama 4 Scout nếu bạn cần context lớn — không có gì khác có thể cung cấp cho bạn 10M token trên một GPU. Nếu use case của bạn liên quan đến phân tích toàn bộ repository, hợp đồng hoặc lịch sử phiên, đây hiện là lựa chọn duy nhất ở mức giá này.
Chờ Behemoth — nó vẫn đang huấn luyện. Đánh giá khi trọng số được phát hành và benchmark có thể tái tạo xuất hiện từ cộng đồng.
Câu Hỏi Hosted vs Self-Hosted
Cả hai gia đình đều có sẵn qua cloud API (Meta AI, Hugging Face, Google Cloud) và dưới dạng trọng số tải xuống. Quy tắc của team tôi:
- Proof of concept / đánh giá: Dùng hosted API — lặp nhanh, không chi phí hạ tầng
- Công cụ nội bộ < 10K lần gọi/ngày: Hosted vẫn hợp lý
- Workload production > 100K lần gọi/ngày: Self-hosted hầu như luôn thắng về chi phí, đặc biệt với mô hình MoE
Điểm giao nhau cho Llama 4 Scout trên H100 self-hosted vs giá API thường đạt khoảng 50-80K token mỗi ngày tùy thuộc vào khấu hao phần cứng của bạn.
Ý Nghĩa Cho 12 Tháng Tới
Frontier open-source không còn trễ một năm so với frontier closed. Maverick cạnh tranh trực tiếp với GPT-4o. Mô hình Gemma 31B xếp hạng #3 trên thế giới. Behemoth chưa được phát hành nhưng đã tuyên bố chiến thắng benchmark STEM so với các mô hình thế hệ hiện tại.
Đối với Technical Leads, hệ quả rõ ràng: lock-in API độc quyền ngày càng khó biện hộ chỉ dựa trên chi phí. Khoảng cách năng lực đã thu hẹp. Các câu hỏi bây giờ là về độ tin cậy, hỗ trợ, tuân thủ và sự trưởng thành trong vận hành — những lĩnh vực mà các tùy chọn cloud được quản lý (dù là open hay closed weights) vẫn có lợi thế.
Nhưng quỹ đạo là không thể phủ nhận. Vào thời điểm Behemoth được phát hành đầy đủ và các hệ sinh thái fine-tuning trưởng thành xung quanh Llama 4, lập luận “chúng ta cần GPT-4o cho mức chất lượng này” trở nên khó đưa ra hơn nhiều.
Hãy bắt đầu đánh giá các mô hình này ngay bây giờ. Các team hiểu rõ sự đánh đổi của chúng sẽ đưa ra quyết định kiến trúc tốt hơn cho 2 năm tới.