Suốt một năm qua, tôi quan sát hàng trăm lập trình viên tiếp cận AI coding. Có người ship sản phẩm production-grade trong vài giờ. Có người đốt $200 tiền API chỉ để debug màu nút bấm.

Sự khác biệt không nằm ở tài năng. Cũng không phải model nào đắt hơn. Nó nằm ở vị trí trên đường cong trưởng thành agentic coding — và bạn có nhận ra mình đang ở đâu hay không.

Andrej Karpathy đặt tên “vibe coding” vào tháng 2/2025. Một năm sau, ông tuyên bố nó đã lỗi thời và đổi tên thành agentic engineering — “vì mặc định bây giờ là bạn không viết code trực tiếp 99% thời gian, bạn điều phối agent viết code và đóng vai người giám sát.”

Câu đó gói gọn một cuộc cách mạng. Nhưng nó bỏ qua đoạn giữa — đoạn bạn sản xuất hàng loạt rác công nghệ trước khi học được cách xây thứ gì đó thật sự.

Đây là mô hình 5 cấp độ tôi dùng để đánh giá một kỹ sư (hoặc founder) thực sự đang ở đâu. Không gatekeep — chỉ là bản đồ thực tế của địa hình.


Cấp 1: Vibe Coding — Cơn Say Đường

“Có một kiểu lập trình mới tôi gọi là vibe coding, nơi bạn buông hết cho cảm xúc, ôm lấy đường cong exponential, và quên luôn rằng code tồn tại.” — Andrej Karpathy

Ai cũng bắt đầu từ đây. Gõ prompt. AI sinh ra website. Thấy giao diện hiện lên. Kỳ diệu.

Công cụ phổ biến: Cursor IDE, Lovable, Replit Agent, Bolt.new. Giao diện kéo thả biến ngôn ngữ tự nhiên thành ứng dụng chạy được.

Vòng lặp: Viết prompt -> chờ code -> xem giao diện -> lặp lại N lần.

Dữ liệu kể câu chuyện:

  • Lovable đạt $100M ARR trong 8 tháng — có lẽ là startup tăng trưởng nhanh nhất lịch sử
  • Doanh thu Replit nhảy từ $10M lên $100M trong 9 tháng sau khi ra mắt Replit Agent
  • 84% lập trình viên đang dùng hoặc có kế hoạch dùng AI coding (Stack Overflow 2025)

Nhưng mặt sau:

  • 77% lập trình viên nói vibe coding không nằm trong quy trình làm việc chuyên nghiệp (Stack Overflow 2025)
  • 45% nói debug code AI sinh ra lâu hơn tự viết
  • Chỉ 29% tin vào kết quả AI — giảm từ 40% năm 2024

Kịch bản luôn giống nhau: Làm cái nhỏ thì tuyệt vời. Làm cái lớn thì chạy được hai ngày, rồi source code rối như mớ bòng bong, đến AI cũng không gỡ nổi.

Bạn không đang xây phần mềm. Bạn đang sinh demo.

💡 Dấu hiệu Cấp 1: Hoạt động chính của bạn là ngồi test xem AI làm đúng chưa, không phải thiết kế thế nào là “đúng.”


Cấp 2: Vibe Engineering — Lên Đời CLI

Cấp 2 là khi những người có nền tảng kỹ thuật tốt nghiệp khỏi IDE copilot, chuyển sang agent dòng lệnh: Claude Code, OpenAI Codex CLI, OpenCode.

Khác biệt rất lớn. Thay vì auto-complete một file, các tool này hoạt động xuyên suốt toàn bộ codebase. Chúng grep, đọc, lên kế hoạch, sửa nhiều file, chạy test, và tự lặp lại.

Bộ công cụ:

Công cụChức năngQuy mô
Claude CodeCLI agent của Anthropic, sub-agent, skills, plan mode, memory10% lập trình viên dùng
Codex CLITerminal agent của OpenAI, sandbox đám mây, input đa phương thứcMới gia nhập
OpenCodeMã nguồn mở, 75+ nhà cung cấp model, không khóa vendor120K+ GitHub stars

Kỹ thuật mới mở khóa:

  • Plan mode — agent đọc hiểu codebase trước khi động tay. Nghiên cứu trước, code sau.
  • Sub-agent — sinh ra các worker chuyên biệt chạy song song, mỗi con một context riêng biệt.
  • MCP (Model Context Protocol) — kết nối agent với trình duyệt, cơ sở dữ liệu, Docker, và 5.800+ tool server bên ngoài. 97 triệu lượt tải SDK mỗi tháng.
  • Skills và framework — bộ chỉ dẫn tái sử dụng (như Super Claude Framework) làm giàu prompt với coding convention, project rules, workflow habits.

Thực tế phũ phàng:

Source code lớn xử lý được rồi. Nhưng gặp bug thì vòng lặp debug kéo dài hàng giờ. Agent thử fix rồi fix nữa, mỗi lần làm codebase xấu đi một chút. Bạn đốt credit Opus như đốt xăng máy bay.

Nếu là dev, cuối cùng bạn mở VS Code lên, đặt breakpoint, tìm bug trong 3 phút, rồi chửi AI ngu như con scubidoo.

Nếu không phải dev, bạn kẹt cứng. Ngồi chờ model thế hệ tiếp theo ra đời với hy vọng nó sẽ tự sửa mọi thứ.

💡 Dấu hiệu Cấp 2: Bạn biết plan mode là gì. Bạn có quan điểm mạnh về Claude Code so với Cursor. Bạn đã rage-quit ít nhất một session khi dính rate limit giữa lúc debug.


Cấp 3: Fullstack Builder — Một Người, Sức Mạnh Vô Hạn

Ở Cấp 3, agent không chỉ viết code. Nó là designer, copywriter, DevOps engineer, QA tester, và database admin của bạn — tất cả cùng lúc.

Bước đột phá: Thay vì bảo agent “sửa bug này,” bạn đang feed cho nó cả workflow:

  • Hệ thống thiết kế UI/UX
  • Hướng dẫn viết nội dung
  • Cấu hình CI/CD pipeline
  • Script migration cơ sở dữ liệu
  • Tự động hóa triển khai

Kỹ năng then chốt là tìm đúng MCP server, skill, hoặc plugin cho từng lĩnh vực. Muốn agent nhìn trình duyệt? Chrome DevTools MCP. Đọc log Docker? Docker MCP. Quản lý database? Supabase MCP.

Xưa phải đi cầu cạnh anh dev, giờ một tay che trời.

Dữ liệu 2025-2026:

Lượt tải MCP server tăng từ 100.000 vào tháng 11/2024 lên 8 triệu vào tháng 4/2025. Đến Q1/2025, 28% công ty Fortune 500 đã tích hợp MCP vào hệ thống AI. Tháng 12/2025, Anthropic chuyển MCP cho Linux Foundation — tín hiệu rằng MCP giờ là hạ tầng, không phải tính năng sản phẩm.

Sự thật cay đắng:

Bạn mạnh nhưng mong manh. Agent gặp tường là lập tức cúng cụ model đắt nhất — Opus 4.7, GPT-5.5 — cầu nguyện nó brute-force xuyên vấn đề. Mà dính rate limit khi bug chưa fix thì… thôi không tả nổi cái cảm giác đó.

Công việc thật sự ở Cấp 3 là testing. Bạn là QA engineer toàn thời gian cho một AI developer viết code nhanh như tốc độ ánh sáng nhưng debug chậm như ốc sên say rượu.

💡 Dấu hiệu Cấp 3: Bạn build được gần như mọi thứ. Chỉ không đảm bảo nó chạy đúng. Sao kê thẻ tín dụng trông như hóa đơn cloud của startup.


Cấp 4: Agentic Engineering — Xây Cỗ Máy Tạo Ra Cỗ Máy

Đây là nơi cuộc chơi thay đổi tận gốc.

Bạn ngừng chiến đấu với hạn chế của agent. Bạn bắt đầu thiết kế hệ thống bao quanh nó. Build framework, harness layer, hook, trigger, và feedback loop làm agent đáng tin cậy theo đúng thiết kế.

Bản chất vấn đề:

“Agent không phải phần khó — harness mới là.” — Anthropic, 2026 Agentic Coding Trends Report

Harness là gì?

Martin Fowler định nghĩa: Agent = Model + Harness. Harness là mọi thứ bao quanh vòng lặp suy luận cốt lõi:

  • Điều phối thực thi tool
  • Quản lý và nén context
  • Đảm bảo an toàn và cổng phân quyền
  • Lưu trữ trạng thái session xuyên context window
  • Cấu trúc artifact chuyển giao giữa các giai đoạn

Agent viết code. Harness đảm bảo code đúng, nhất quán, và sẵn sàng production.

Kỹ sư Cấp 4 xây dựng gì:

  1. Pipeline đánh giá tự động — Mọi output của agent phải qua cổng chất lượng trước khi chạm vào production code.
  2. Kiến trúc modular — Tách bạch rõ ràng để agent làm việc trên một module mà không phá vỡ module khác. Đây không phải tùy chọn — agent không thể suy luận về monolith 50.000 dòng.
  3. Lifecycle hook — Check trước commit, test sau sinh code, smoke test khi deploy. Công việc của agent được xác minh ở mọi giai đoạn.
  4. Tool tự xây — MCP server, CLI plugin, hoặc script cho agent đúng tầm nhìn và năng lực cần thiết cho dự án cụ thể của bạn.

Dấu hiệu nhận biết kỹ sư Cấp 4: Họ tự build tool riêng. Họ publish framework mã nguồn mở. Họ gom GitHub stars như sưu tầm thẻ bài.

💡 Dấu hiệu Cấp 4: File CLAUDE.md của bạn dài hơn README của hầu hết mọi người. Bạn có quan điểm về kiến trúc harness. Bạn đã tự xây ít nhất một MCP server.


Cấp 5: Software Craftsmanship — Vạn Kiếm Quy Tông

Cấp 5 là bậc thầy. Khoảnh khắc “vạn kiếm quy tông” — kiếm tùy ý xuất chiêu, mọi thứ hội tụ.

Ở cấp này, bạn không dùng agent. Bạn thiết kế hệ thống agent.

Cấp 5 trông như thế nào:

Đi chiều sâu: Bạn build framework cạnh tranh tầm thế giới. Nhìn Palantir Ontology rồi nghĩ “mình kiến trúc được cái tốt hơn cho domain mình.” Fork agent mã nguồn mở rồi sửa reasoning loop cho phù hợp tiêu chuẩn kỹ thuật riêng.

Đi chiều rộng: Bạn chạy coding farm. Nhiều Mac Mini, hàng chục tmux session, agent làm việc 24/7 trên các task song song. Mỗi agent có:

  • Pipeline rõ ràng với input/output contract
  • Checkpoint đánh giá (eval) ở mọi giai đoạn
  • Tự động rollback khi chất lượng giảm

Cuộc cách mạng QA:

Đây mới là phần thú vị. Tôi đầu tư xây một agent QA riêng với phương pháp luận chặt chẽ — học mót từ nhiều framework testing đã được kiểm chứng và thích ứng cho code AI sinh ra.

Agent này chạy gần gấp 10 lần thời gian so với sinh code thô. Nhưng output đã qua trận mạc.

Đây là những gì agent QA thực sự làm:

  1. Review kế hoạch — Trước khi agent coding viết dòng đầu tiên, agent QA xé toạc bản kế hoạch. Kiểm tra lỗ hổng, stub, edge case chưa xử lý, điểm mù kiến trúc. Plan nhìn “tạm được” với mắt người bị reject 4-5 lần mới pass. Bản chất LLM đuối token là bắt đầu vá stub và bịa đại cho xong. Plan tính năng vừa vừa đã dài cả nghìn dòng — agent QA soi từng dòng.

  2. Kiểm tra sau code — Sau khi sinh code, agent QA chạy:

    • Phân tích test coverage
    • Xác minh wiring — mỗi hàm viết ra có thực sự được gọi trong flow ứng dụng không? Hay agent viết code đẹp rồi… không ai invoke? Code viết ra làm cảnh.
    • Kiểm tra tuân thủ convention
    • Checklist theo bộ tiêu chí chất lượng hoàn chỉnh
  3. Lớp review code — Dùng CodeRabbit (2 triệu+ repo, 13 triệu+ PR reviewed, điểm F1 cao nhất 60.1%) nhặt bug lọt lưới. Kết hợp coding convention chặt chẽ — viết code convention tốt thì hạn chế lọt bug, mà có debug cũng đỡ hoang mang.

  4. Tích hợp CI/CD — CI test trên GitHub, smoke test khi deploy, kiểm tra Docker log. Xong hết — rồi mới lên production.

Kết quả: Agent có thể tự push code lên production. Thật sự. Không phải kiểu “vibe deploy rồi cầu trời” — mà là code đã xác minh, đã test, đạt chuẩn production.

Agent QA cứu tôi khỏi kiếp làm vibe tester hầu AI. Hồi mới học vibe coding, ngồi debug với test đi test lại đến ngốc người. Giờ agent code xong bắn thẳng production là có thật.

💡 Dấu hiệu Cấp 5: Agent của bạn có pipeline. Bạn ngủ trong khi chúng ship. Code đến production đã qua nhiều bước kiểm tra tự động hơn code con người viết ở phần lớn startup.


Hiểu Con Thú: Tại Sao Agent Hay Fail

Muốn nâng trình agentic engineering phải hiểu tại sao agent thất bại. Hạn chế cốt lõi chưa thay đổi — nhưng cách vá đã tiến bộ đáng kể.

Thầy Bói Xem Voi

Coding agent khám phá codebase của bạn đúng nghĩa đen là thầy bói xem voi. Nó mù. Không thấy bức tranh toàn cảnh. Dùng grepread sờ từng mảnh nhỏ, rồi suy luận (đoán) phần còn lại.

Con số thực tế:

  • Context 200K token? Agent “sờ” được hòn gối con voi. Cùng lắm là một phần cái chân.
  • 1M-2M token? Sờ được nhiều hơn — nhưng nghiên cứu cho thấy độ chính xác giảm hơn 30% khi thông tin nằm ở vị trí giữa (hiện tượng “thất lạc giữa chừng”).
  • 60-80% ngân sách token của agent dùng để xác định phương hướng — tìm xem mọi thứ ở đâu — chứ không phải giải quyết vấn đề thực sự.

Não Cá Vàng

Đóng session. Mở session mới. Agent chào bạn như người lạ: “Xin chào! Tôi có thể giúp gì cho bạn hôm nay?”

Toàn bộ context session trước? Biến mất. Mọi phát hiện khi debug, mọi quyết định kiến trúc, mọi cảnh báo “đừng đụng file này” — xóa sạch.

Giống người yêu cũ bị ngã mất trí trong phim ngôn tình vậy. Lần nào cũng “chào bạn, rất vui được gặp bạn.”

Đói Token

LLM “tư duy” trong ngân sách token cố định. Khi ngân sách cạn giữa chừng suy luận, model không dừng lại nói “tôi cần thêm tài nguyên.” Nó làm một trong ba điều:

  1. Stub — viết hàm rỗng với comment # TODO
  2. Ảo giác — sinh code trông hợp lý nhưng sai hoàn toàn
  3. Hardcode — thay logic động bằng giá trị tĩnh để giảm độ phức tạp

Đây không phải lười. Đây là ràng buộc cơ bản: model đúng nghĩa không đủ token tính toán để suy nghĩ thấu đáo vấn đề. Tiền ít mà muốn hít đồ thơm — LLM chỉ có ảo giác rồi bịa pattern, bịa đoán mò.

Chưa kể khi nó đang chạy thinking mà đuối token trong phiên thinking đó, nó bịa đại fix đại. Rải bug như rải mìn. Nhiều chiến sĩ vibe chết trong bãi mìn đó.


Thuốc Giải: Cái Gì Thực Sự Hiệu Quả

Hiểu con thú thì thấy thuốc giải. Đây là bộ công cụ biến agentic coding từ cờ bạc thành kỹ thuật:

Chữa Mất Trí Nhớ: Hệ Thống Memory

Giải phápCách hoạt động
CLAUDE.mdHướng dẫn dự án viết tay, load mỗi session
Auto MemoryClaude Code tự quan sát hội thoại, trích xuất insight, lưu tóm tắt có cấu trúc ra ổ đĩa
claude-memPlugin memory xuyên session, nén lịch sử và inject context liên quan vào session tương lai

Chữa Mù: Công Cụ Tầm Nhìn

Giải phápCho agent nhìn được gì
GitNexusĐồ thị tri thức codebase — symbol, quan hệ, chuỗi gọi hàm, phân tích bán kính ảnh hưởng. 28K+ GitHub stars
Serena MCPHiểu ngữ nghĩa cấp IDE trên 30+ ngôn ngữ. Điều hướng cấp symbol, không phải grep theo token
Chrome DevTools MCPToàn quyền nhìn trình duyệt — DOM, computed style, hiệu năng, ARIA role. Debug dựa trên bằng chứng
Docker MCPLog container, quan sát hành vi runtime

Chữa Đói: Hiệu Quả Context

  • Plan mode — nghiên cứu và lập bản đồ codebase trước khi tiêu token sinh code
  • Sub-agent — tách task vào context window riêng để không agent nào cạn kiệt dung lượng
  • Convention chặt chẽ — code có cấu trúc tốt, format nhất quán thì agent parse dễ hơn, ít ảo giác hơn
  • Kiến trúc modular — module nhỏ, tập trung, vừa vặn một context window

Chữa Chất Lượng: Xác Minh Tự Động

  • CodeRabbit — AI review code với 40+ công cụ phân tích tĩnh tích hợp
  • Agent QA — pipeline đánh giá tùy chỉnh, xác minh plan trước khi code và code trước khi deploy
  • Spec-driven development — định nghĩa specification trước, để agent implement theo, xác minh bằng test suite tự động
  • Smoke test khi deploy — kiểm tra ứng dụng thực sự chạy trước khi đổ traffic

Bạn Đang Ở Đâu?

Thành thật đi.

CấpTên gọiBạn ở đây nếu…
1Vibe CodingPrompt rồi cầu nguyện. AI kỳ diệu cho đến khi không.
2Vibe EngineeringDùng CLI agent và plan mode. Đốt credit khi bug khó.
3Fullstack BuilderBuild sản phẩm hoàn chỉnh một mình. Testing là việc chính.
4Agentic EngineeringXây harness. Agent hoạt động trong hệ thống của bạn.
5Software CraftsmanshipAgent có pipeline và eval. Bạn ngủ trong khi chúng ship.

Phần lớn developer tôi làm việc cùng đang ở khoảng Cấp 2-3. Khoảng cách giữa Cấp 3 và Cấp 4 là bước nhảy khó nhất — nó đòi hỏi thay đổi tư duy từ gốc: từ “dùng AI để code” sang “thiết kế hệ thống giúp AI code đáng tin cậy.”

Ngành đang di chuyển cực nhanh. 84% lập trình viên dùng AI. Thị trường 7.37 tỷ USD và tăng trưởng 35-40% mỗi năm. MCP có 5.800+ server và 97 triệu lượt tải SDK mỗi tháng.

Nhưng vấn đề niềm tin vẫn còn. Chỉ 29% tin vào output. 45% nói debug code AI khó hơn tự viết.

Kỹ sư sẽ thắng không phải người prompt giỏi nhất. Mà là người xây harness làm cho việc prompt trở nên không cần thiết.

“2025 là năm agent AI chứng minh chúng viết code được. 2026 là năm chúng ta nhận ra agent không phải phần khó — harness mới là.”

Harness là nơi nghề sống.


Xây bằng agentic engineering. Xác minh bởi agent QA. Review bởi con người. Ship lên production.

Xuất nội dung

Bình luận