Ngày 5 tháng 3 năm 2026, OpenAI ra mắt GPT-5.4 — và ẩn trong kết quả benchmark là một con số khiến tôi dừng lại: 75.0% trên OSWorld-Verified, vượt mức chuẩn con người 72.4%.

Để hiểu rõ: OSWorld-Verified đo khả năng AI điều hướng trong môi trường desktop thực — click nút, đọc màn hình, điền form, dùng phần mềm thực sự — thông qua screenshot và lệnh bàn phím/chuột. Không phải API trừu tượng. Không phải browser sandbox. Computer use thực sự, theo cách con người làm.

Đây là lần đầu tiên bất kỳ AI nào vượt qua ngưỡng đó. Và nếu bạn đang xây agentic systems, điều này thay đổi đáng kể cách tính toán kiến trúc.

”Computer Use” Thực Sự Nghĩa Là Gì

Trước GPT-5.4, computer use trong AI agents có hai dạng đáng chán:

Dạng 1: Browser automation dễ vỡ. Playwright scripts gãy ngay khi UI thay đổi. Selectors hardcoded ngừng hoạt động sau khi SaaS product cập nhật CSS. Bạn đã viết những cái này. Tôi cũng đã viết. Về mặt kỹ thuật là computer use, nhưng bản chất rất mong manh.

Dạng 2: Các model chuyên biệt đắt tiền. Model được fine-tune riêng cho UI interaction, sống ngoài reasoning stack chính. Bạn gọi reasoning model, nó quyết định thực hiện action, hand off sang model computer-use chuyên biệt, nhận kết quả về, rồi feed lại cho reasoning model. Gấp đôi latency, gấp đôi chi phí, gấp đôi điểm failure.

GPT-5.4 thu hẹp khoảng cách này. Computer use là native — cùng một model suy luận về vấn đề của bạn cũng điều khiển máy tính. Không còn handoff.

Bên dưới, nó hoạt động bằng cách phát ra các lệnh tương thích Playwright để phản hồi screenshot, kết hợp với vòng lặp quan sát screenshot:

from openai import OpenAI

client = OpenAI()

# Computer use yêu cầu Responses API (không phải Chat Completions)
response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer_use"}],
    messages=[
        {
            "role": "user",
            "content": "Mở GitHub, tạo repository mới tên 'demo-project', đặt private, thêm README"
        }
    ]
)

Lưu ý chi tiết quan trọng: computer use yêu cầu Responses API. Không thể dùng chat.completions.create. Nếu migrate từ GPT-5.2, đây là điểm ma sát chính — bạn cần cập nhật code client, không chỉ đổi tên model.

Các Con Số Benchmark Đáng Hiểu

Con số OSWorld (75.0%) là headline, nhưng có hai benchmark khác quan trọng hơn cho các use case cụ thể:

WebArena-Verified (67.3%): Điều hướng browser dùng cả DOM và screenshot. Đây là automation web thông thường — điền form, extract data từ sites, điều hướng qua multi-step workflows trong web apps. GPT-5.4 cải thiện so với GPT-5.2’s 65.4%, nhưng đây là benchmark yếu nhất so với hiệu suất con người.

Online-Mind2Web (92.8%): Browser dùng chỉ screenshot observation — không có DOM access. Gần hơn với cách con người thực sự dùng browser. 92.8% rất ấn tượng, cho thấy khả năng hiểu visual mạnh về web interfaces. So sánh: thế hệ trước Atlas Agent Mode đạt 70.9%.

Toolathlon (54.6%): Sử dụng tool và API thực trong multi-step tasks như đọc email, extract đính kèm, upload file, ghi kết quả vào spreadsheet. Cải thiện so với GPT-5.2 (46.3%) là 8 điểm phần trăm — đáng kể trên các task thực sự khó.

Tool Search: Tính Năng Ít Được Chú Ý Nhưng Quan Trọng Về Scale

Cùng với computer use, GPT-5.4 ra mắt tính năng Tool Search mà hầu hết coverage bỏ qua, nhưng quan trọng về mặt kiến trúc.

Cách truyền thống: định nghĩa tất cả tools trước, toàn bộ tool definition (schema, description, examples) được include trong mỗi prompt. Với 10 tools, ổn. Với 50+ tools — nơi các enterprise agent systems thực sự hoạt động — bạn đang đốt token vào mô tả tool mà model sẽ không bao giờ gọi trong request cụ thể đó.

Tool Search đảo ngược điều này. Bạn truyền manifest nhẹ (chỉ tên và mô tả ngắn), GPT-5.4 lookup định nghĩa đầy đủ chỉ khi quyết định dùng tool cụ thể. Trên Scale’s MCP Atlas benchmark với 36 MCP servers, OpenAI đo được giảm 47% tokens với accuracy như nhau.

Với high-volume agent workflows, đây không phải tối ưu nhỏ — đây là sự khác biệt giữa $0.50/session và $0.90/session ở quy mô lớn.

Kiến Trúc Thực Tế Cho Computer Use Agents

Sau khi thử nghiệm computer use của GPT-5.4 vài tuần qua, đây là pattern hoạt động ổn định trong production:

Luồng xử lý:
Task Input → GPT-5.4 Orchestrator → Thực thi Action
    ↓                    ↓                    ↓
Instruction      Chia sub-steps       Screenshot/Click/Type
bằng ngôn ngữ   có thể verify
tự nhiên                              ↓
                              Verification Step
                              (Screenshot sau action)

                              ┌───────┴───────┐
                              ▼               ▼
                          Tiếp tục        Retry /
                          bước tiếp       Escalate

Quyết định thiết kế quan trọng là verification step. Đừng giả định action thành công vì model đã thực thi. Yêu cầu model chụp screenshot sau mỗi action quan trọng và xác nhận trạng thái mong đợi trước khi tiếp tục. Điều này bắt được UI race conditions, loading states, và lỗi model không thường xuyên.

Risk controls là thiết yếu. GPT-5.4 cho phép cấu hình confirmation policies tùy chỉnh — dung sai rủi ro khác nhau cho các loại action khác nhau. Tôi dùng ba tầng:

confirmation_policy = {
    "read_only": "auto",          # Screenshots, đọc trang — không cần xác nhận
    "low_risk_write": "auto",     # Điền form, nhập text — không cần xác nhận
    "high_risk_write": "confirm", # Xóa file, email, mua hàng — cần xác nhận
    "destructive": "confirm"      # Bất kỳ thứ gì không thể đảo ngược — luôn xác nhận
}

Thực Tế Về Giá

GPT-5.4 có giá $2.50/1M input tokens và $20.00/1M output tokens. Cho computer use sessions cụ thể:

  • Task đơn giản 5 bước (điền form, submit): ~30-50K tokens → $0.07-0.12
  • Task trung bình 15 bước có verification: ~150-200K tokens → $0.38-0.50
  • Workflow phức tạp 50+ bước, nhiều apps: 500K+ tokens → $1.25+

So sánh: làm điều này với GPT-5.2 + model computer-use chuyên biệt dễ đắt hơn 2-3× mỗi task do kiến trúc dual-model.

Nhận Định Của Tôi: Điều Thực Sự Thay Đổi

OSWorld benchmark là headline hữu ích, nhưng điều tôi thấy thực tế quan trọng hơn là sự hợp nhất. Trước GPT-5.4, xây production-grade agent có thể “dùng máy tính” nghĩa là quản lý reasoning model, computer-use model, và plumbing giữa chúng.

Giờ chỉ một model. Một API endpoint. Một context window chứa toàn bộ task history. Một billing meter. Một điểm failure duy nhất để monitor.

Với các team đã chờ đầu tư vào computer use automation vì độ phức tạp multi-model không đáng — calculus đó đã thay đổi. Infrastructure đơn giản hơn đúng lúc capability mạnh hơn.

Thử nghiệm thực sự không phải benchmark. Đó là liệu workflows thực tế của bạn có chuyển được không. Bắt đầu với task team bạn làm thủ công 10+ lần mỗi ngày, instrument tốt, và đo lường. Theo kinh nghiệm của tôi, hiệu suất thực tế thường thấp hơn benchmark 10-15 điểm — vẫn đặt GPT-5.4 thoải mái trên các thế hệ trước.


GPT-5.4 có sẵn ngay qua OpenAI API. Computer use yêu cầu Responses API endpoint. GPT-5.2 Thinking sẽ bị loại bỏ ngày 5 tháng 6 năm 2026.

Xuất nội dung

Bình luận