Hôm nay, ngày 16 tháng 3 năm 2026, Jensen Huang bước lên sân khấu SAP Center tại San Jose trước 30.000 khán giả đến từ 190 quốc gia. Đây không phải lần đầu tiên ông làm điều này - nhưng lần này, thông điệp mang tính chuyển dịch thực sự: thời đại GPU thuần túy đã qua, thời đại AI Agentic đã đến.

Bối Cảnh: GTC Từ Hội Nghị GPU Đến “Super Bowl Của AI”

GTC (GPU Technology Conference) từng là sự kiện dành riêng cho giới kỹ thuật đồ họa và HPC. Nhưng từ 2023 đến nay, nó đã biến thành một trong những sự kiện quan trọng nhất của ngành công nghệ toàn cầu. Wall Street gọi GTC 2026 là “Super Bowl of AI” - và không sai.

Năm nay, NVIDIA không đến để bán chip. Họ đến để định nghĩa lại cách thế giới nghĩ về hạ tầng AI.

Vera Rubin: Thế Hệ Chip Không Chỉ Về Tốc Độ

Vera Rubin - cái tên kết hợp giữa CPU Vera (kế nhiệm Grace) và GPU Rubin (kế nhiệm Blackwell) - là nền tảng chip thế hệ tiếp theo của NVIDIA. Con số ấn tượng:

  • 5x hiệu năng inference so với Blackwell
  • 3.5x hiệu năng training
  • Giảm 10x chi phí token inference
  • Giảm 4x số GPU cần thiết để train MoE models

Nhưng điều thú vị hơn không phải là những con số benchmark. Đó là thiết kế triết học của nền tảng này.

Vera Rubin được xây dựng với kiến trúc codesign cực đoan - phần cứng và phần mềm được tối ưu hóa đồng thời từ đầu, không phải retrofit về sau. NVIDIA nhắm thẳng vào hai workload sẽ chiếm lĩnh 2026-2027: reasoning models (như o3, DeepSeek R-series) và Mixture-of-Experts (MoE) models.

Đây là tầm nhìn rất chính xác. Thị trường AI đang dịch chuyển từ “một model làm tất cả” sang “nhiều chuyên gia AI phối hợp” - và Rubin được thiết kế để chạy kiến trúc đó hiệu quả nhất.

CPU Lên Ngôi: Tại Sao Agentic AI Cần Nhiều CPU Hơn?

Đây là điều khiến tôi thực sự chú ý trong GTC năm nay.

Jensen Huang nói thẳng: “Agentic AI đang tạo ra một cuộc phục hưng của CPU.” Điều này nghe có vẻ lạ trong một hội nghị của công ty GPU - nhưng logic rất rõ ràng.

AI Agentic về bản chất là orchestration: một agent chính điều phối nhiều sub-agent, mỗi agent gọi tools, chờ kết quả, ra quyết định, rồi spawn thêm agent khác. Luồng công việc này cực kỳ bất đồng bộphân tán - GPU không giỏi xử lý loại workload này một mình.

CPU hiện đại với NUMA architecture, cache hierarchy lớn, và khả năng xử lý interrupt latency thấp lại phù hợp hơn nhiều để làm AI orchestration layer. NVIDIA dự kiến ra mắt CPU rack riêng biệt tại GTC năm nay - và đây là tín hiệu rõ ràng về hướng đi.

Như Jensen nói trên earnings call gần nhất: “Những hệ thống agentic đang sinh ra các agent hoạt động như một đội nhóm. Số lượng token được tạo ra đã tăng theo hàm mũ thực sự, và chúng ta cần inference với tốc độ cao hơn nhiều.”

NVIDIA Nemotron 3: Open Models Cho Thế Giới Agentic

Song song với phần cứng, NVIDIA ra mắt Nemotron 3 - họ model mở (Nano, Super, Ultra) được thiết kế đặc biệt cho agentic applications.

Điểm đặc biệt: Nemotron 3 Nano đạt throughput cao hơn 4x so với thế hệ trước nhờ kiến trúc hybrid mixture-of-experts đột phá. Đây không phải model NVIDIA train để cạnh tranh với GPT hay Claude - đây là nền tảng để developers xây dựng agent systems hiệu quả hơn.

Đây là chiến lược khôn ngoan: NVIDIA không muốn cạnh tranh với Anthropic hay OpenAI về frontier models. Họ muốn trở thành infrastructure layer không thể thiếu của toàn bộ hệ sinh thái AI.

Thinking Machines Lab Partnership: Tín Hiệu Từ Thị Trường Thực

Ngay trước GTC, NVIDIA công bố partnership đa năm với Thinking Machines Lab - deploy ít nhất 1 gigawatt hệ thống Vera Rubin để train frontier AI models.

1 gigawatt. Con số này không phải về hiệu năng - đây là con số điện năng. 1 GW là tương đương công suất của một nhà máy điện hạt nhân vừa.

Điều này cho thấy: nhu cầu hạ tầng AI đang vượt xa những gì ngay cả người lạc quan nhất dự đoán. Và NVIDIA đang là người duy nhất có thể đáp ứng nhu cầu đó ở quy mô này.

Nhìn Về Tương Lai: Rubin Ultra và Feynman

Jensen Huang không chỉ nói về hôm nay. Ông đã hé lộ roadmap tiếp theo:

  • Rubin Ultra (2027): 576 GPU, hiệu năng 14.4x so với Grace Blackwell - đây sẽ là beast machine cho foundation model training
  • Feynman (2028): Chip “inference-first” trên TSMC A16 1.6nm process, được thiết kế đặc biệt cho long-context, multi-step reasoning của AI agents

Điều quan trọng ở đây là NVIDIA đang “pull forward” roadmap - Rubin Ultra được đề cập sớm hơn 1 năm so với kế hoạch. Đây thường là tín hiệu rằng demand từ khách hàng đang vượt dự báo.

Nhận Định Cá Nhân: Chúng Ta Đang Ở Đâu Trong Chu Kỳ Này?

Là một Technical Lead đã theo dõi ngành này nhiều năm, tôi thấy GTC 2026 đánh dấu một inflection point quan trọng.

Giai đoạn 1 (2020-2023): AI = Large Language Models. Ai có model lớn nhất thắng.

Giai đoạn 2 (2024-2025): AI = Reasoning + Multimodal. Cuộc đua về chất lượng output.

Giai đoạn 3 (2026-): AI = Agentic Systems. AI không chỉ trả lời câu hỏi mà thực thi công việc.

NVIDIA đang định vị mình là backbone của Giai đoạn 3. Và với Vera Rubin, với CPU renaissance, với Nemotron - họ không chỉ bán phần cứng nữa. Họ đang bán kiến trúc tư duy cho AI thế hệ tiếp theo.

Rủi ro? Dĩ nhiên có. AMD, Intel, Google TPU, Amazon Trainium đều đang đuổi theo. Và nếu agentic AI workloads thực sự phân tán ra edge devices như nhiều người dự đoán, NVIDIA sẽ phải đối mặt với cạnh tranh ở segment mới.

Nhưng với momentum hiện tại - 1,000+ model releases dự kiến trong 2026, OpenAI đạt $25B ARR, toàn bộ enterprise đang chạy đua triển khai AI agents - Jensen Huang và NVIDIA đang đứng ở đúng nơi, đúng thời điểm.

Kết Luận

GTC 2026 không chỉ là về chip mới. Đây là tuyên ngôn chiến lược của NVIDIA: tương lai của AI là agentic, và chúng tôi đã chuẩn bị hạ tầng cho tương lai đó.

Với Vera Rubin 5x faster, CPU renaissance, Nemotron 3 open models, và partnerships ở quy mô gigawatt - NVIDIA đang xây dựng không phải một sản phẩm, mà là toàn bộ ecosystem của thế hệ AI tiếp theo.

Đối với developers và architects xây dựng AI systems: đây là thời điểm để hiểu sâu về agentic architecture, về orchestration patterns, về cách thiết kế workloads tận dụng được nền tảng phần cứng mới này. Cuộc đua không phải về việc chạy được AI - mà về việc chạy AI hiệu quả ở quy mô lớn.


Sources: NVIDIA Blog GTC 2026, NVIDIA Newsroom - Rubin Platform, CNBC GTC Preview, Analytics Insight GTC Keynote

Xuất nội dung

Bình luận