Tại GTC 2026 tuần này, NVIDIA không chỉ mang đến những con chip mới — họ đã phát hành thứ mà theo tôi là model open source quan trọng nhất trong năm 2026: Nemotron 3 Super. Là một người theo dõi sát sao thị trường AI, tôi thực sự bất ngờ với mức độ kỹ thuật mà NVIDIA đã đổ vào đây.
Bối cảnh: Cuộc chiến open source đang nóng lên
Trước khi đi vào chi tiết kỹ thuật, cần hiểu tại sao Nemotron 3 Super lại quan trọng ở thời điểm này.
Năm 2025 và đầu 2026 chứng kiến cuộc chiến open source khốc liệt: Meta với Llama 4, Alibaba với Qwen3.5, Mistral với MoE models, và gần đây nhất là DeepSeek-V3. Mỗi model đều tuyên bố “đánh bại GPT-4” trên một số benchmark nhất định.
Nhưng Nemotron 3 Super khác ở chỗ: NVIDIA không chỉ chạy theo benchmark — họ tối ưu cho một use case cụ thể và ngày càng quan trọng: agentic AI. Đây là quyết định kiến trúc thông minh khi toàn bộ ngành đang chuyển dịch từ “chatbot” sang “autonomous agent.”
Kiến trúc Hybrid MoE: Ba đổi mới cùng lúc
Nemotron 3 Super có 120 tỷ tham số nhưng chỉ active 12 tỷ trong quá trình inference — đây là đặc trưng của kiến trúc Mixture of Experts (MoE). Nhưng điểm đặc biệt là NVIDIA kết hợp ba đổi mới kỹ thuật chưa từng xuất hiện đồng thời trong một model:
1. Hybrid Mamba-Transformer
Thay vì dùng thuần Transformer như hầu hết các model hiện tại, Nemotron 3 Super kết hợp Mamba layers với Transformer layers.
Tại sao điều này quan trọng? Transformer có vấn đề với memory: khi context window dài, bộ nhớ tăng theo bình phương (O(n²)). Mamba — dựa trên State Space Models — xử lý sequence theo kiểu recurrent với O(n) memory. NVIDIA cho biết Mamba layers mang lại 4x higher memory và compute efficiency so với thuần Transformer.
Kết quả: model có thể xử lý context 1M token mà không cần bộ nhớ khổng lồ như những model khác cùng kích thước.
2. LatentMoE
NVIDIA giới thiệu LatentMoE — một kỹ thuật mới cho phép mỗi token khi được xử lý sẽ activate 4 expert specialists nhưng với chi phí tính toán chỉ bằng 1 expert thông thường.
Cơ chế hoạt động: thay vì mỗi expert xử lý độc lập, LatentMoE project các expert representations vào một latent space chung, giúp tái sử dụng computation. Kết quả là accuracy tăng đáng kể mà không ảnh hưởng đến latency.
3. Multi-Token Prediction (MTP)
Đây là kỹ thuật mà Meta cũng đã áp dụng trong Llama 4: thay vì predict một token tại một thời điểm, model predict nhiều token cùng lúc.
Trong Nemotron 3 Super, MTP được tích hợp native (không phải post-training patch) và cho phép speculative decoding ngay trong kiến trúc — đạt 3x faster inference trong thực tế.
4. NVFP4 native training
Điểm này ít được chú ý nhưng thực ra rất quan trọng về mặt kỹ thuật: Nemotron 3 Super được pre-train natively trong NVFP4 precision thay vì train FP32 rồi quantize sau.
NVFP4 là định dạng 4-bit floating point của NVIDIA, được tối ưu cho chip Blackwell. Train native thay vì quantize cho phép model học cách sử dụng precision hạn chế một cách có chủ đích, thay vì bị “ép” vào precision thấp sau khi đã học ở precision cao. Kết quả benchmark cho thấy accuracy loss gần như không đáng kể.
Benchmark: Số liệu đáng chú ý
Các con số NVIDIA công bố:
- 5x higher throughput so với Nemotron Super phiên bản trước
- 2.2x và 7.5x higher inference throughput so với GPT-OSS-120B và Qwen3.5-122B (tương ứng)
- 85.6% trên PinchBench — benchmark đánh giá khả năng làm “não” của AI agent trong môi trường OpenClaw
- #1 trên DeepResearch Bench I và II — benchmark về multistep research với large document sets
Con số tôi quan tâm nhất là PinchBench 85.6% và DeepResearch Bench #1. Đây không phải academic benchmark — đây là đánh giá thực tế về khả năng agent, sử dụng tools, reasoning across long documents, và complete complex tasks.
1M token context: Giải quyết “context explosion”
Một trong những vấn đề lớn nhất khi build production AI agent là “context explosion” — agent cần remember nhiều thứ, nói chuyện với nhiều tools, và maintain coherence across long conversations. Nhiều giải pháp hiện tại dùng external memory (vector DB, summarization) để bypass giới hạn context.
Nemotron 3 Super với native 1M token context thay đổi phương trình này. Bạn có thể nhét toàn bộ codebase vừa và nhỏ vào context, hay một cuộc hội thoại kéo dài nhiều ngày, mà không cần tricking với RAG hay summarization.
Quan trọng hơn, NVIDIA cho biết model vẫn outperforms GPT-OSS-120B và Qwen3.5-122B trên RULER benchmark ở 1M context — nghĩa là khả năng “needle in a haystack” vẫn tốt dù context rất dài. Đây là điểm mà nhiều model tuyên bố support long context nhưng thực tế retrieval accuracy giảm mạnh.
NemoClaw Agent Toolkit: Cái nhìn rộng hơn
NVIDIA không chỉ release model — họ launch cả NemoClaw Agent Toolkit, bao gồm:
- NemoClaw runtime: Môi trường execution cho long-running autonomous agents
- AI-Q blueprint: Open agent blueprint để build research agents
- Nemotron model family: Gồm Super (balance), Ultra (reasoning/coding), Omni (multimodal), VoiceChat (speech-to-speech)
Đây là chiến lược rõ ràng: NVIDIA muốn control the entire stack từ chip (Blackwell), đến software (NIM, NeMo), đến model (Nemotron), đến agent runtime (NemoClaw). Tương tự cách họ đã làm với deep learning từ 2012 với CUDA.
Góc nhìn của tôi: Tại sao đây là bước ngoặt
Sau nhiều năm theo dõi thị trường AI, tôi tin Nemotron 3 Super đánh dấu một cột mốc quan trọng vì hai lý do:
Thứ nhất, đây là lần đầu tiên một model open source được thiết kế ngay từ đầu cho agentic workloads, không phải được “điều chỉnh” từ một chat model. Kiến trúc Hybrid Mamba-Transformer, native 1M context, và MTP inference đều phục vụ cho usecase agent dài hạn.
Thứ hai, việc NVIDIA release với open weights và permissive license trên Hugging Face, build.nvidia.com, và OpenRouter thực sự thay đổi kinh tế học của việc build AI agents. Trước đây, để có model mạnh cho agent, bạn phải trả tiền API cho GPT-4 hay Claude. Giờ bạn có thể self-host một model 120B (với hardware phù hợp) hoặc dùng inference services với giá thấp hơn nhiều.
Điều tôi muốn thấy tiếp theo: Liệu cộng đồng open source có tiếp tục fine-tune Nemotron 3 Super cho domain-specific agentic tasks như CodeRabbit, Factory, và Greptile đang làm không? Nếu có, chúng ta sẽ sớm thấy một ecosystem agent phong phú hơn bao giờ hết.
Kết luận
NVIDIA Nemotron 3 Super không phải là “model tốt nhất mọi mặt” — đó không phải mục tiêu của họ. Thay vào đó, đây là model tốt nhất cho agentic AI workloads trong phân khúc open source, với kiến trúc đột phá và performance thực tế đã được verify.
Nếu bạn đang build AI agents và chưa cân nhắc Nemotron 3 Super — đây là lúc để xem xét lại kiến trúc của mình.
Sources: NVIDIA Blog - Nemotron 3 Super, NVIDIA Developer Blog, GTC 2026 - Futurum Group