Tháng 3 năm 2023, xử lý một triệu input tokens với GPT-4 tốn $30. Ngày nay, AI ở mức GPT-4 tốn dưới $1 per million tokens — và các model siêu rẻ như GPT-4.1 Nano đã giảm xuống $0.02. Đó là mức giảm 99.9% trong ba năm.
Đây không phải cải thiện dần dần. Đây là sự thay đổi căn bản về những gì có thể xây dựng được về mặt kinh tế.
Nhưng đây là cái bẫy mà hầu hết các team rơi vào: họ nghe “AI rẻ rồi” và bắt đầu ném LLM calls vào mọi vấn đề mà không suy nghĩ về kiến trúc. Rồi hóa đơn đến và họ phát hiện rằng rẻ-per-token vẫn cộng lại nhanh khi hệ thống xử lý hàng triệu requests mỗi ngày.
Các team thắng về chi phí không chỉ dùng model rẻ hơn — họ kiến trúc thông minh hơn.
Bức Tranh Giá 2026
Trước khi tối ưu, cần hiểu phân tầng hiện tại:
Tier siêu rẻ ($0.02–$0.30/M input tokens):
- GPT-4.1 Nano: $0.02 input / ~$0.08 output
- Gemini 3.1 Flash-Lite: $0.25 input
- Devstral Small 2: $0.10 input / $0.30 output
- GPT-4o Mini: $0.15 input / $0.60 output
Tier trung bình ($0.40–$2.50/M input tokens):
- Devstral 2: $0.40 input / $2.00 output
- Grok 4.1: $0.20 input / $0.50 output
- GPT-4o: $2.50 input / $10.00 output
Tier premium/reasoning ($5–$15+/M input tokens):
- Claude Opus 4.6: $15 input / $75 output
- GPT-5.2: giá premium
- Các model reasoning o3-class: variable, cao
Insight quan trọng: output tokens tốn 3–10 lần hơn input tokens ở mọi provider. Một model với $1 input/$4 output có thể trông rẻ cho đến khi bạn nhận ra ứng dụng của bạn generate nhiều response dài.
Bẫy Output Token
Đây là nơi hầu hết các team tiêu tiền mà không nhận ra.
Hãy xét một hệ thống documentation assistant nội bộ. Users hỏi bằng ngôn ngữ tự nhiên, hệ thống retrieve tài liệu liên quan, LLM tổng hợp câu trả lời. Nghe đơn giản.
Nhưng nếu prompt template của bạn là 800 tokens, retrieved context là 2,000 tokens, và model generate 600-token response — bạn đang tiêu 3.3 lần nhiều hơn cho output so với input per request, dù output chỉ là một phần nhỏ tổng tokens.
Ở giá GPT-4o ($2.50/$10.00):
- Input: 2,800 tokens × $0.0025/K = $0.007
- Output: 600 tokens × $0.01/K = $0.006
- Tổng: $0.013 per request
Với 100,000 requests/ngày: $1,300/ngày hay ~$40,000/tháng.
Chuyển sang cascade architecture và bạn có thể giảm xuống dưới $3,000/tháng.
Pattern Cascade Architecture
Thay đổi ROI cao nhất bạn có thể làm với AI system là implement cascade router:
Request đến
↓
Complexity Classifier
(tiny model: ~$0.001/req)
↓
┌──────────────────────────┐
│ Simple (60-70%) │→ Nano/Flash: $0.02/M
│ Medium (25-30%) │→ Mid-tier: $0.40/M
│ Complex (5-10%) │→ Premium: $5-15/M
└──────────────────────────┘
Complexity classifier là một LLM call nhỏ hoặc rules-based system quyết định route đến tier nào:
import anthropic
client = anthropic.Anthropic()
def classify_complexity(query: str) -> str:
"""Route queries đến model tier phù hợp."""
# Fast path dựa trên rules (miễn phí)
if len(query) < 50 and not any(
kw in query.lower()
for kw in ["so sánh", "phân tích", "giải thích", "tại sao", "như thế nào"]
):
return "nano"
# Classifier cho các trường hợp khó phân loại
response = client.messages.create(
model="claude-haiku-4-5-20251001", # classifier rẻ nhất
max_tokens=10,
messages=[{
"role": "user",
"content": f"""Phân loại độ phức tạp của query này: simple/medium/complex
Query: {query}
Trả lời một từ duy nhất:"""
}]
)
complexity = response.content[0].text.strip().lower()
return {"simple": "nano", "medium": "mid", "complex": "premium"}.get(
complexity, "mid"
)
Trong production trên một support system xử lý 10,000 tickets/ngày, một team tôi tư vấn giảm chi phí AI hàng tháng từ $38,000 xuống $4,200 — tiết kiệm 89% — mà không có suy giảm chất lượng đáng kể trên user satisfaction scores.
Prompt Caching: 90% Giảm Giá Ẩn Trong Tầm Tay
Mọi provider lớn hiện cung cấp prompt caching với mức giảm giá đáng kể. Anthropic: giảm 90% cho cached content. OpenAI: giảm 50% batch, giảm 75% cached prefixes.
Pattern: tách system prompt (static) khỏi user context (dynamic).
# XẤU: Full context lặp lại mỗi call
messages = [{
"role": "user",
"content": f"{SYSTEM_PROMPT_DÀI}\n\n{doc_context}\n\n{user_query}"
}]
# TỐT: Cache phần stable
# Với Anthropic cache control:
system_with_cache = [
{
"type": "text",
"text": SYSTEM_PROMPT_DÀI + doc_context,
"cache_control": {"type": "ephemeral"}
}
]
messages = [{"role": "user", "content": user_query}]
Với ứng dụng có system prompts 2,000+ tokens (RAG systems, agent tools-heavy, document processors), điều này một mình có thể giảm chi phí 60–80% cho repeated contexts.
Batch Processing Cho Workload Không Cần Real-time
Nếu use case không cần phản hồi ngay lập tức — báo cáo hàng đêm, indexing tài liệu, content analysis, test generation — batch API giảm chi phí 50%:
# OpenAI Batch API example
batch_requests = [
{
"custom_id": f"task-{i}",
"method": "POST",
"url": "/v1/chat/completions",
"body": {
"model": "gpt-4o-mini",
"messages": [{"role": "user", "content": task}],
"max_tokens": 500
}
}
for i, task in enumerate(tasks)
]
# Submit batch - rẻ hơn 50%, kết quả trong 24h
batch = client.batches.create(
input_file_id=upload_batch_file(batch_requests),
endpoint="/v1/chat/completions",
completion_window="24h"
)
Kiến Trúc Tổng Thể Scale Được
Tổng hợp lại, đây là kiến trúc tôi khuyến nghị cho ứng dụng AI-heavy trong 2026:
User Request
↓
[Rate Limiter + Abuse Detection]
↓
[Cache Check] → Hit? Return cached → Done
↓ Miss
[Complexity Router]
↓
[Model Tier Selection]
├── Nano ($0.02/M) — simple, classification
├── Mid ($0.40/M) — standard chat, code review
└── Premium ($5+/M) — complex reasoning, critical paths
↓
[Prompt Optimizer]
- Compress system prompt
- Apply cache_control cho static content
- Trim context chỉ lấy chunks liên quan
↓
[LLM API Call]
↓
[Response Cache] (TTL theo loại query)
↓
[User Response]
Metrics cần theo dõi:
- Cost per MAU (không chỉ cost per request)
- Cache hit rate (mục tiêu: 40%+ cho high-volume apps)
- Tier distribution (mục tiêu: 60%+ route đến cheap tier)
- Quality scores per tier (đảm bảo không hy sinh chất lượng)
Ý Nghĩa Với Product Strategy
Sự sụp đổ chi phí thay đổi những gì có thể xây dựng được về kinh tế. Những tính năng trước đây quá đắt để xây giờ có thể afford được một cách tầm thường.
Ở $0.02/M tokens, bạn có thể chạy semantic search trên mọi user interaction để build personalization. Bạn có thể analyze mọi support ticket về sentiment và routing. Bạn có thể generate test cases cho mọi code commit.
Ràng buộc không còn là chi phí — mà là engineering capacity và kiến trúc chu đáo.
Quick Wins Cho Tuần Này
Nếu muốn ngay lập tức giảm chi phí AI mà không cần overhaul kiến trúc hoàn toàn:
- Audit output token usage — bạn có đang generate verbose responses khi concise responses là đủ không?
- Bật caching cho bất kỳ prompt nào có 1,000+ static tokens
- Chuyển sang Mini/Nano cho classification, routing, và simple extraction tasks
- Dùng batch API cho bất kỳ overnight hay background processing nào
Với hầu hết các team, bốn thay đổi này một mình có thể cắt chi phí AI 40–60% trong vòng một tuần.
Các model $0.02 của hôm nay có thể sẽ là $0.002 hoặc ít hơn trong 18 tháng tới. Xây dựng kiến trúc một lần. Để economics tiếp tục cải thiện.