Google âm thầm ra mắt Gemini 3.1 Pro vào ngày 19 tháng 2 năm 2026, và các con số benchmark khá ấn tượng — 77.1% trên ARC-AGI-2, 94.3% trên GPQA Diamond, 80.6% trên SWE-Bench Verified. Nhưng benchmark chỉ là marketing cho đến khi bạn dùng chúng trong hệ thống thực tế. Tôi đã tích hợp nhiều model vào AI agent production trong hơn một năm qua, đây là nhận định thực tế của tôi về những gì Gemini 3.1 Pro thực sự thay đổi cho developer.

Con Số ARC-AGI-2 Đáng Chú Ý Nhất

Hầu hết benchmark kiểm tra kiến thức đã ghi nhớ. ARC-AGI-2 thì khác — nó kiểm tra khả năng nhận dạng pattern mới mà model chưa từng thấy. Đạt 77.1% không phải nhờ data training; đây phản ánh khả năng reasoning thực sự. So sánh: Gemini 3 Pro đạt 31.1% trên cùng bài test đó. Tức là tăng gấp đôi chỉ trong một thế hệ model.

Tại sao điều này quan trọng trong thực tế? Trong các hệ thống agentic, model thường xuyên gặp edge cases — tool output bất thường, API response không mong đợi, dữ liệu malformed. Model có khả năng reasoning về pattern mới sẽ xử lý những tình huống này tốt hơn. Theo kinh nghiệm của tôi khi xây dựng voice AI pipeline, hầu hết lỗi production xảy ra ở các boundary condition, không phải happy path.

Benchmark đáng chú ý khác: 80.6% trên SWE-Bench Verified. Bài test này đánh giá giải quyết GitHub issue thực tế — không phải bài tập toy mà là task software engineering thật. Claude Opus 4.6 vẫn nhỉnh hơn ở đây, nhưng khoảng cách đang thu hẹp nhanh.

Dynamic Thinking: API Developer Cần Hiểu

Feature được đánh giá thấp nhất trong Gemini 3.1 Pro là parameter thinking_level mới. Các model trước hoặc là “nghĩ” hoặc là không. Giờ bạn có thể tuning:

import google.generativeai as genai

genai.configure(api_key="YOUR_KEY")
model = genai.GenerativeModel("gemini-3-1-pro")

# Cho task reasoning phức tạp — trả thêm tiền cho tư duy sâu hơn
response = model.generate_content(
    "Phân tích kiến trúc này và tìm bottleneck về scaling...",
    generation_config=genai.GenerationConfig(
        thinking_level="high",  # low | medium | high | max
        max_output_tokens=8192,
    )
)

# Cho lookup đơn giản — dùng low để tiết kiệm chi phí và latency
response_fast = model.generate_content(
    "Trích xuất error code từ dòng log này...",
    generation_config=genai.GenerationConfig(
        thinking_level="low",
    )
)

Level medium là mới trong 3.1 — lấp khoảng trống giữa response nhanh và chain-of-thought sâu. Trong thực tế, medium là default phù hợp cho hầu hết task agentic production. Chỉ dùng high hoặc max khi task thực sự cần, vì chi phí và latency tăng theo độ sâu của thinking.

Thought Signatures: Feature Mở Khóa Agentic Workflow Thực Sự

Feature này ít được đề cập trong hầu hết các bài viết về model. Thought signatures duy trì reasoning context xuyên suốt multi-turn API conversation.

Trong traditional multi-turn chat API, mỗi lượt xử lý lại context từ đầu. Thought signatures cho phép model mang theo reasoning state trung gian. Với agent đang thực hiện nghiên cứu nhiều bước hoặc debugging:

# Lượt đầu — model bắt đầu reasoning
turn1 = model.generate_content(
    "Tìm hiểu tại sao API latency tăng đột biến lúc 14:32 UTC. Đây là logs: ..."
)
thought_sig = turn1.thought_signature  # lưu lại này

# Lượt hai — tiếp tục từ chỗ dừng
turn2 = model.generate_content(
    "Với những gì bạn tìm ra, root cause là gì?",
    thought_signature=thought_sig  # inject reasoning trước đó
)

Không có feature này, mỗi lượt trong workflow debugging phức tạp sẽ restart lại từ đầu. Với thought signatures, model xây dựng context thực sự theo thời gian. Đây là cải tiến kiến trúc có ý nghĩa cho bất kỳ ai xây dựng multi-step reasoning agent.

1 Triệu Token Context: Giới Hạn Thực Tế

Đúng, Gemini 3.1 Pro hỗ trợ ~1M input token. Trong thực tế:

  • Có thể feed nguyên một codebase (lên đến ~750K dòng code thông thường)
  • Repository tài liệu đầy đủ cho phân tích legal/compliance
  • ~8.4 giờ transcript audio trong một prompt

Giới hạn mà không ai nhắc đến: latency. Ở 500K token, expect thời gian response 15-30 giây ngay cả với thinking_level="low". Với ứng dụng interactive, điều này không thể dùng được. Với batch processing pipeline chạy qua đêm, đây là game changer.

Sweet spot thực tế cho interactive agent vẫn là 100K-200K token. Dùng full 1M window cho batch analysis job, không phải real-time system.

Kiểm Tra Thực Tế Về Giá

Ở mức $2.00 per 1M input token và $12.00 per 1M output token, Gemini 3.1 Pro có giá cạnh tranh so với Claude Opus 4.6 ($15/$75) và GPT-5.2 ($10/$30). Với hầu hết workload:

TaskModel Khuyến NghịLý Do
Reasoning phức tạp / agentsGemini 3.1 ProTỉ lệ reasoning/cost tốt nhất
Software engineering thuần túyClaude Opus 4.6SWE-bench score tốt nhất
Lượng lớn, nhạy cảm với chi phíMistral Large 315% chi phí GPT-5.2, 92% performance
Edge/on-deviceMinistral 3Có thể chạy trên single GPU

Những Gì Điều Này Thay Đổi Trong Thực Tế

Tôi đang cập nhật agent orchestration nội bộ để dùng Gemini 3.1 Pro cho reasoning layer (planning, root cause analysis, architecture decisions) trong khi giữ Claude Opus 4.6 cho các task code generation. Tiết kiệm chi phí đáng kể — khoảng 60% rẻ hơn mỗi reasoning token so với Opus 4.6 — với chất lượng tương đương trên hầu hết task.

Khả năng tạo SVG animation là điểm cộng. Tôi đã test với một số yêu cầu dashboard visualization và nó tạo ra animated chart dùng được ngay lần đầu. Chưa production-ready mà không review, nhưng nhanh hơn bắt đầu từ đầu.

Kết Luận

Gemini 3.1 Pro là bước tiến thực sự, không chỉ là update chạy đua benchmark. Điểm ARC-AGI-2 phản ánh cải thiện reasoning thực sự xuất hiện ở edge case production. Thought signatures API thực sự hữu ích cho multi-step agent. Parameter thinking_level cho developer kiểm soát cost/quality mà trước đây chưa có.

Với các team chạy AI agent trong production năm 2026, đây đáng để đánh giá nghiêm túc — không phải để thay thế setup hiện tại, mà là reasoning layer trong multi-model architecture. Thời đại chọn một model cho mọi thứ đã qua; thời đại orchestrate model phù hợp cho từng task đã đến.

Xuất nội dung

Bình luận