Ngày 5 tháng 3 năm 2026, OpenAI công bố GPT-5.4 - và đi kèm với đó là một con số khiến toàn bộ ngành AI phải chú ý: 75.0% trên OSWorld-Verified benchmark, vượt qua ngưỡng hiệu năng của con người lần đầu tiên trong lịch sử.

Đây không phải benchmark học thuật trừu tượng. OSWorld-Verified đo lường khả năng thực tế: AI có thể tự mình ngồi trước màn hình máy tính và hoàn thành công việc không?

OSWorld-Verified Là Gì?

Trước khi đánh giá ý nghĩa của con số 75%, cần hiểu OSWorld-Verified đo lường điều gì.

OSWorld là benchmark mô phỏng môi trường desktop thực tế - Windows, macOS, Linux. AI nhìn vào screenshot màn hình, rồi phải thực hiện sequence các thao tác chuột và bàn phím để hoàn thành task. Không có API đặc biệt. Không có cheat. Đúng như cách một con người ngồi làm việc.

Tasks bao gồm: mở file, navigate folder, điền form, copy-paste giữa ứng dụng, sử dụng spreadsheet, browser automation, và hàng chục loại công việc văn phòng khác.

Human baseline: 72.4% - đây là điểm trung bình của người dùng thông thường được đo trong cùng điều kiện.

GPT-5.4: 75.0% - vượt qua lần đầu tiên.

Để so sánh: GPT-5.2 chỉ đạt 47.3%. GPT-5.3-Codex đạt 64.7%. Kimi K2.5 đứng đầu trước đó với 63.3%. Claude Sonnet 4.5 đạt 62.9%. GPT-5.4 không chỉ vượt con người - nó vượt xa mọi model trước đó.

Cơ Chế: GPT-5.4 Làm Điều Này Thế Nào?

GPT-5.4 là model đầu tiên của OpenAI có native computer-use capability - không phải thông qua plugin hay wrapper bên ngoài mà được tích hợp trực tiếp vào kiến trúc model.

Hệ thống hoạt động theo hai hướng:

1. Code execution path: GPT-5.4 viết code sử dụng libraries như Playwright, PyAutoGUI, hoặc Selenium để điều khiển máy tính programmatically. Cách này phù hợp khi task có pattern rõ ràng và có thể script hóa.

2. Direct interaction path: Model nhận screenshot, phân tích UI state, rồi phát ra lệnh mouse/keyboard trực tiếp. Cách này cần thiết khi ứng dụng không có API hoặc khi UI state phức tạp và không thể predict trước.

Sự kết hợp dual-path này là lý do GPT-5.4 vượt trội - nó chọn strategy phù hợp nhất cho từng loại task, giống như một developer có kinh nghiệm biết khi nào nên code automation và khi nào nên thao tác tay.

Các Benchmark Khác: Bức Tranh Toàn Diện Hơn

OSWorld không phải benchmark duy nhất đáng chú ý:

WebArena-Verified: 67.3% - đo lường browser automation phức tạp. Task như: tìm kiếm trên trang web, điền form nhiều bước, extract thông tin từ nhiều trang, booking/purchasing flows.

Online-Mind2Web: 92.8% - benchmark hiểu UI intentions trên web. Con số này đặc biệt cao, cho thấy GPT-5.4 hiểu sâu về web interface patterns.

GDPval: 83.0% - benchmark 44 ngành nghề đóng góp nhiều nhất vào GDP của Mỹ. Nói cách khác: AI này có thể thực hiện được 83% công việc văn phòng chuyên nghiệp.

Spreadsheet modeling (Investment Banking tasks): 87.3% so với 68.4% của GPT-5.2.

ARC-AGI-2: 73.3% - đây là benchmark “reasoning thuần túy”, không liên quan đến computer use. Con số này tăng từ 52.9%, cho thấy GPT-5.4 không chỉ giỏi thao tác máy tính mà thực sự tốt hơn về tư duy.

Độ Chính Xác: 33% Ít Sai Hơn

Một cải tiến thường bị bỏ qua nhưng cực kỳ quan trọng trong production: GPT-5.4 có 33% ít individual claims sai hơn so với GPT-5.2, và 18% ít response chứa bất kỳ lỗi nào.

Trong agentic workflows, hallucination không chỉ là phiền toái - nó có thể gây cascade failures. Một agent xóa nhầm file, submit form sai data, hoặc navigate sai workflow có thể gây ra hệ quả nghiêm trọng. Sự cải thiện về accuracy này là điều kiện tiên quyết để triển khai computer agents trong production.

Implications Thực Tế: Điều Gì Thay Đổi?

Đây là câu hỏi tôi nghĩ nhiều nhất khi đọc về GPT-5.4.

Cho Developers: Khả năng computer use tích hợp sẵn trong model mạnh nhất hiện tại mở ra class hoàn toàn mới của applications. Trước đây, để build automation agent bạn cần ít nhất: model + computer use framework (như Playwright) + orchestration layer + error handling. Bây giờ, phần lớn complexity đó được model tự xử lý.

Cho Enterprise: Những task “không thể automate” vì quá phức tạp hoặc vì ứng dụng legacy không có API - đây là vùng mà GPT-5.4 có thể bắt đầu làm được. Nghĩ đến: nhập liệu vào ERP systems cũ, navigate internal tools phức tạp, multi-system workflows.

Cho QA/Testing: Automation testing luôn khó vì UI thay đổi làm script fail. AI-driven testing với khả năng “nhìn và hiểu” UI thay vì depend on selectors có thể giải quyết vấn đề này.

Pricing và Accessibility

GPT-5.4 không rẻ:

  • Standard: $2.50/1M input tokens, $15.00/1M output tokens
  • GPT-5.4 Pro: $30/1M input tokens, $180/1M output tokens

So sánh với GPT-5.2, đây là mức giá cao hơn đáng kể. Nhưng với enterprise use cases - nơi mà việc automate được một task manual tốn 1 giờ/ngày của một employee có thể tiết kiệm hàng chục nghìn USD mỗi năm - ROI vẫn rất rõ ràng.

Nhận Định Cá Nhân: Milestone Hay Hype?

Tôi muốn nhìn thẳng vào câu hỏi này.

75% OSWorld có nghĩa là AI đã “thay thế được con người trong công việc máy tính” không? Chưa. Human baseline 72.4% là con số của người dùng thông thường trong điều kiện test. Power users, domain experts trong lĩnh vực cụ thể vẫn sẽ outperform AI trong nhiều scenarios.

Nhưng điều thực sự quan trọng là: AI đã cross một threshold tâm lý quan trọng.

Khi AI chỉ đạt 40-50%, nó là “công cụ hỗ trợ”. Khi đạt 60-70%, nó là “công cụ đáng tin cậy”. Khi vượt qua human baseline, nó trở thành “agent thực sự” - thứ gì đó bạn có thể giao task và tin tưởng sẽ hoàn thành.

Điều này có ý nghĩa rất khác nhau tùy theo role:

Nếu bạn là developer: Đây là cơ hội lớn. Build computer agents ngay bây giờ khi chưa nhiều người làm.

Nếu bạn là IT manager: Bắt đầu đánh giá nghiêm túc những process nào có thể automate bằng AI agents.

Nếu bạn đang làm repetitive computer tasks: Thời gian để upskill vào higher-value work đang cạn dần.

Tôi không thuộc trường phái doom and gloom - AI augments humans before it replaces them. Nhưng “trước khi” trong câu đó đang ngắn dần đáng kể.

Kết Luận

GPT-5.4 đạt 75% OSWorld-Verified là một milestone lịch sử - không phải vì con số 75% mà vì lần đầu tiên ngưỡng hiệu năng của con người bị vượt qua trong một benchmark đo lường khả năng làm việc thực tế trên máy tính.

Kết hợp với các improvements về reasoning (ARC-AGI-2 tăng từ 52.9% lên 73.3%), accuracy (33% ít errors hơn), và professional work performance (83% GDPval) - GPT-5.4 không chỉ là “model tốt hơn”. Đây là bước chuyển dịch từ AI-as-tool sang AI-as-agent.

Câu hỏi không còn là “AI có thể làm được không” mà là “chúng ta sẽ thiết kế workflows của mình thế nào trong thế giới nơi AI agents có thể tự vận hành máy tính?”

Đó là câu hỏi cho tất cả chúng ta - developers, architects, managers - phải bắt đầu trả lời ngay hôm nay.


Sources: OpenAI GPT-5.4, DataCamp GPT-5.4 Guide, Blockchain News Analysis, Build Fast With AI Review

Xuất nội dung

Bình luận