Cuối tháng 3/2026 có một sự kiện không được ăn mừng rầm rộ nhưng thực ra rất quan trọng: GPT-5.4 của OpenAI đạt 75% trên OSWorld-V — benchmark mô phỏng các tác vụ năng suất desktop thực tế — cao hơn nhẹ so với mức cơ sở của con người là 72.4%. Trên giấy tờ, đó chỉ là một con số. Trong thực tế, đó là một cột mốc thay đổi cách tôi nghĩ về những gì AI agent thực sự có thể làm trong môi trường production.
Tôi đã xây dựng hệ thống AI-assisted từ thời GPT-3. Tôi đã trải qua kỷ nguyên chat, kỷ nguyên RAG, kỷ nguyên tool-calling. Lần này cảm giác khác hẳn. Hãy để tôi phân tích tại sao GPT-5.4 và Responses API mở rộng đại diện cho một sự thay đổi kiến trúc thực sự — và ý nghĩa của nó đối với các kỹ sư xây dựng hệ thống thực.
Shell Tool Thay Đổi Tất Cả
Các model trước đây có “code interpreter” — về cơ bản là một Python REPL sandboxed. Hữu ích nhưng bị giới hạn. Shell tool của GPT-5.4 là một thứ hoàn toàn khác.
Với hỗ trợ shell mới trong Responses API, một agent giờ đây có thể:
- Chạy chương trình Go hoặc Java
- Khởi động server Node.js
- Thực thi bash scripts
- Query database trực tiếp
- Cài đặt packages và quản lý dependencies
Đây không chỉ là mở rộng phạm vi thực thi code. Đây là một mô hình thực thi hoàn toàn khác về bản chất. Đây là dạng agentic workflow cơ bản trông như thế nào bây giờ:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.4",
input="Phân tích bottleneck hiệu năng trong app Node.js này, fix nó, và chạy benchmark",
tools=[{"type": "shell"}],
# Files sống trong hosted container
container={"type": "hosted", "files": ["app.js", "package.json"]}
)
Model không chỉ gợi ý cách fix — nó chạy nó, xác minh nó hoạt động, và lặp lại. Đó là vòng lặp build-run-verify-fix mà trước đây luôn cần con người ở giữa.
Context Compaction: Anh Hùng Thầm Lặng
Một trong những điều khó chịu nhất của tôi với long-running agents luôn là context overflow. Agent bắt đầu một tác vụ phức tạp, đốt qua 100k tokens trong các bước trung gian, rồi chạm giới hạn và thất bại hoặc mất context quan trọng.
GPT-5.4 giới thiệu native compaction — model đầu tiên được train đặc biệt cho điều này. Trong một agent trajectory dài, model nén các bước trước đó thành một biểu diễn ngắn hơn trong khi vẫn giữ lại context quan trọng. Hãy nghĩ về nó như một project manager tài ba có thể tóm tắt cuộc họp 2 giờ thành 3 quyết định thực sự quan trọng.
Đây là một chiến thắng lớn cho production deployments. Tôi đã thấy agents trên GPT-4 thất bại trên các tác vụ về cơ bản là tầm thường với con người nhưng đòi hỏi nhiều bước lặp. Compaction làm cho những tác vụ này trở nên khả thi.
Tool Search: Giải Quyết Vấn Đề Khám Phá
Đây là vấn đề thực tế tôi gặp ở công việc: chúng tôi có hơn 200 internal tools đăng ký trong hệ thống. Khi một agent cần chọn đúng tool, việc đưa tất cả 200 định nghĩa vào context vừa lãng phí vừa ảnh hưởng độ chính xác.
GPT-5.4 xử lý vấn đề này với deferred tool loading — tools trở nên có thể tìm kiếm thay vì được pre-load. Model query để tìm tools liên quan dựa trên tác vụ hiện tại, rồi chỉ load những định nghĩa đó. Trong thực tế:
- Giảm ~40% token usage cho large tool registries
- Cải thiện độ chính xác khi chọn tool
- Inference nhanh hơn cho agentic workloads
Đối với .NET developers xây dựng enterprise tooling, đây là design pattern API cần áp dụng. Đăng ký tools theo ngữ nghĩa, để model tự khám phá chúng.
1M Context + Autonomous Execution Có Nghĩa Gì Trong Thực Tế
Hãy để tôi nói cụ thể. Với context window 1M token và built-in computer use của GPT-5.4:
Trước đây: “Phân tích codebase này và đề xuất cải tiến” → Agent đọc từng file một, bỏ sót các cross-file dependencies, đề xuất cải tiến generic
Bây giờ: Toàn bộ codebase trong context, agent có thể chạy tests, xác định cái nào failing, trace bug qua các files, áp dụng fix, verify nó pass — trong một request duy nhất.
Tôi đã test nội bộ với một .NET solution 150,000 token (khoảng 80 files). GPT-5.4 phát hiện một async deadlock tinh tế mà team chúng tôi đã bỏ sót suốt 2 sprint. Nó trace call chain qua 6 layer abstraction, xác định root cause là misuse của SemaphoreSlim, và tạo ra một fix hoạt động với unit tests.
Những Phần Khó Không Ai Đang Nói Đến
Sức mạnh này đi kèm với những thách thức kỹ thuật thực sự:
1. Chi Phí Ở Scale Một tác vụ agentic phức tạp duy nhất có thể dễ dàng tiêu thụ 50k-200k tokens với nhiều lần lặp. Ở production scale, bạn cần mô hình hóa chi phí nghiêm túc. Implement caching tích cực — dùng GPT-5.4-nano cho routing/classification, dành 5.4 cho execution thực sự.
2. Bảo Mật Trong Shell Hosted container có network policy controls và allow-lists, nhưng nếu bạn đang chạy agents trên production systems, bạn cần các safeguards bổ sung. Hãy đối xử với shell-enabled agents của mình như một junior engineer có sudo: có năng lực nhưng cần guardrails.
// .NET example: Scoped tool permissions
var agentConfig = new AgentConfiguration
{
Model = "gpt-5.4",
ShellPolicy = new ShellPolicy
{
AllowedCommands = ["dotnet", "git", "curl"],
NetworkAllowList = ["api.internal.company.com"],
MaxExecutionTime = TimeSpan.FromMinutes(5)
}
};
3. Observability Long-running agents nổi tiếng là khó debug. Instrument mọi tool call, log các compaction events, và thiết lập alerts cho agents đang lặp vòng. Responses API cung cấp event streaming — hãy sử dụng nó.
4. Idempotency Agents có thể và sẽ retry operations. Thiết kế tools của bạn idempotent. Điều này có vẻ hiển nhiên nhưng tôi đã thấy production incidents từ việc agents retry một call “create record” 3 lần vì timeout khiến nó trông như thất bại.
Nhận Định Của Tôi: Nên Build Gì Ngay Bây Giờ
Sau 2 tuần test GPT-5.4, đây là những cơ hội giá trị cao nhất tôi thấy:
- Automated code review pipelines — Không chỉ kiểm tra style, mà là suy luận thực sự về tính đúng đắn và hiệu năng trên các codebase lớn
- Self-healing infrastructure agents — Phát hiện anomalies, chẩn đoán root cause, áp dụng known fixes, xác minh resolution
- Document intelligence workflows — Xử lý hàng trăm documents với full cross-reference reasoning, không chỉ individual extractions
- Developer tooling assistants — Context-aware agents hiểu toàn bộ codebase và CI/CD pipeline của bạn
Việc benchmark OSWorld-V vượt qua mức cơ sở của con người không chỉ là khoảnh khắc PR cho OpenAI. Đó là tín hiệu cho thấy vòng lặp planning-execution-verification giờ đây là thứ chúng ta có thể tin tưởng giao cho AI trong các domain được giới hạn rõ ràng. Giới hạn vẫn còn đó — bạn cần định nghĩa domain một cách cẩn thận. Nhưng trong các domain được xác định rõ, GPT-5.4 thực sự có năng lực.
Bước Tiếp Theo Thực Tế
Nếu bạn muốn bắt đầu thử nghiệm ngay hôm nay:
# Cài đặt OpenAI SDK mới nhất
npm install openai@latest
# hoặc
pip install openai --upgrade
# Ví dụ hoạt động tối giản
from openai import OpenAI
client = OpenAI()
# Agent đơn giản với shell access
response = client.responses.create(
model="gpt-5.4",
input="Viết một hàm fibonacci bằng Go, test nó, và cho tôi xem output",
tools=[{"type": "shell"}]
)
print(response.output_text)
Sự chuyển đổi từ “AI tư vấn” sang “AI thực thi” đang xảy ra ngay bây giờ. Các kỹ sư hiểu cách thiết kế hệ thống xung quanh khả năng này — với các controls phù hợp, cost management, và observability — sẽ có lợi thế đáng kể. Bắt đầu nhỏ, xây dựng niềm tin dần dần, và đo lường mọi thứ.
GPT-5.4 đang được triển khai trên ChatGPT và OpenAI API. Shell tool yêu cầu Responses API (không phải Chat Completions API). Xem OpenAI changelog để biết thông tin về availability mới nhất.