Tháng 2/2026, Anthropic công bố một tài liệu chi tiết về điều đã xảy ra trong nhiều tháng: các nỗ lực có tổ chức, có hệ thống của các công ty AI Trung Quốc nhằm trích xuất năng lực của Claude qua cái họ gọi là distillation attacks.
Ba công ty được nêu tên: DeepSeek, Moonshot AI, và MiniMax. Phương thức: khoảng 24.000 tài khoản giả mạo tổng cộng gửi hơn 16 triệu query đến Claude API. Mỗi công ty nhắm vào các lĩnh vực năng lực khác nhau. Cả ba đều cố tạo training dataset từ output của Claude để cải thiện model của chính họ.
Đây là vấn đề đáng hiểu sâu — cả về mặt kỹ thuật lẫn chiến lược.
Knowledge Distillation Là Gì và Tại Sao Có Giá Trị
Knowledge distillation là kỹ thuật hợp pháp trong machine learning. Ý tưởng: bạn có một “teacher model” lớn, tốn kém và một “student model” nhỏ hơn. Bạn train student để bắt chước output của teacher. Làm tốt, student nắm bắt được phần đáng kể năng lực của teacher với chi phí compute thấp hơn nhiều.
Kỹ thuật này đã được dùng công khai trong học thuật và công nghiệp nhiều năm. Các paper của OpenAI đề cập đến nó. Model Llama của Meta hưởng lợi từ nó. Về bản thân không có gì sai.
Điều DeepSeek, Moonshot, và MiniMax làm khác: họ sử dụng production API của công ty khác — không có phép, qua các tài khoản giả mạo được thiết kế để né phát hiện — để tạo training data quy mô lớn. Đây không phải distillation như kỹ thuật ML. Đây là đánh cắp IP có hệ thống bằng cơ sở hạ tầng kỹ thuật.
Cách Tấn Công Hoạt Động
Tài liệu của Anthropic mô tả chi tiết pattern tấn công.
Các tài khoản được tạo theo lô để tránh rate limiting. Chúng dùng IP, thông tin thanh toán và pattern sử dụng khác nhau để trông như developer hợp lệ. Các query không ngẫu nhiên — chúng được tạo cẩn thận để gợi ra output chất lượng cao, mẫu mực trong các lĩnh vực năng lực cụ thể.
Mỗi công ty nhắm vào thứ họ cần nhất:
DeepSeek tập trung vào reasoning tasks — bài toán phức tạp nhiều bước, suy luận toán học, và giải quyết vấn đề có cấu trúc. Mục tiêu của họ là cải thiện những gì trở thành năng lực reasoning của R1 và V3.
Moonshot AI nhắm vào tool use và function calling — cách Claude diễn giải và thực thi API call có cấu trúc, xử lý tool result, và xâu chuỗi tool call qua nhiều bước.
MiniMax tập trung vào coding tasks — đặc biệt là agentic coding pattern, chất lượng code generation, và cách Claude xử lý các bài toán software engineering phức tạp.
Với 16 triệu query, đây không phải proof of concept. Đây là chiến dịch thu thập dữ liệu quy mô công nghiệp.
Tại Sao Phương Pháp Này Hiệu Quả Về Mặt Kỹ Thuật
Lý do distillation attack hoạt động là tính chất của cách large language model học. Output distribution của model được train tốt mã hóa kiến thức đáng kể — không chỉ câu trả lời cuối, mà còn cấu trúc reasoning, pattern xử lý lỗi, phong cách giải thích.
Khi bạn train model trên output từ model ưu việt hơn, bạn không chỉ train nó trên câu trả lời đúng. Bạn train nó theo cách teacher suy luận. Nếu output của teacher trên một reasoning problem cho thấy chain of thought từng bước, student học pattern reasoning đó — không chỉ câu trả lời cụ thể.
Đây là lý do 16 triệu ví dụ có giá trị dù Claude có training data nhiều hơn nhiều. Bạn không cố sao chép toàn bộ Claude — bạn đang cải thiện có phẫu thuật các năng lực cụ thể bằng cách cho student model thấy chính xác cách teacher xử lý các trường hợp đó.
Vấn Đề Phát Hiện
Anthropic phát hiện vì họ đang tìm. Dấu hiệu: các tài khoản trông hợp lệ khi đăng ký nhưng cho thấy pattern query có cấu trúc cao, không tự nhiên ở quy mô lớn. Các lĩnh vực năng lực giống nhau được query lặp đi lặp lại với các biến thể được thiết kế để tối đa hóa coverage.
Điều này thực sự khó phát hiện. Một công ty hợp pháp stress-testing tích hợp có thể gửi khối lượng lớn query tương tự. Một developer xây dựng evaluation harness có thể gửi query có cấu trúc trên nhiều chiều năng lực. Tỷ lệ signal-to-noise rất khó phán đoán.
Phản ứng của Anthropic: chấm dứt các tài khoản và công bố phát hiện — chiến lược tiết lộ vừa là PR move (định vị bản thân là công ty bị đánh cắp) vừa là đóng góp hợp lệ cho lĩnh vực (ghi lại pattern tấn công để người khác cảnh giác).
Ý Nghĩa Với Ngành
Một số điều giờ đây là sự thật chưa được nói rõ trước đây.
Output của model thực tế là IP. Bối cảnh pháp lý vẫn chưa ổn định, nhưng Anthropic lập luận rằng sử dụng API output để có hệ thống train model cạnh tranh là vi phạm điều khoản dịch vụ gây tổn hại cạnh tranh. Liệu điều đó có hành động pháp lý được không là câu hỏi riêng.
Chi phí năng lực frontier model đang bị ngoại hóa. Training năng lực của Claude tốn của Anthropic compute và nghiên cứu khổng lồ. Distillation attack cho phép đối thủ nắm bắt một phần năng lực đó với chi phí 16 triệu API call. Với $5–15 mỗi 1M token tùy tier model, 16 triệu call có thể tốn khoảng $80,000–240,000. Đó là cách cực kỳ rẻ để cải thiện model cạnh tranh.
AI labs Trung Quốc đặc biệt có động lực làm điều này. Kiểm soát xuất khẩu và hạn chế compute khiến các lab Trung Quốc khó train ở frontier hơn. Distillation cung cấp con đường thay thế — không phải đến hiệu năng frontier, mà đến hiệu năng cạnh tranh trên các benchmark cụ thể với chi phí compute thấp hơn. Kết quả benchmark của DeepSeek về reasoning tasks sau giai đoạn này trở nên dễ hiểu hơn trong bối cảnh này.
Đánh Giá Thành Thật
Tôi muốn nói thẳng về những gì chúng ta biết và không biết.
Tài liệu của Anthropic là một chiều — đây là cách kể của họ. DeepSeek, Moonshot, và MiniMax chưa công bố phản bác chi tiết. Các chi tiết kỹ thuật Anthropic chia sẻ đủ cụ thể để đáng tin, nhưng cách đặt vấn đề rõ ràng là có lợi cho bản thân họ.
Quan trọng hơn: distillation từ closed API output đang xảy ra trên toàn ngành theo nhiều hình thức từ rõ ràng bất hợp pháp (tài khoản giả, né rate limit) đến vùng xám pháp lý (dùng Claude API để tạo benchmark dataset giúp đánh giá model của bạn) đến hợp pháp rõ ràng (nghiên cứu học thuật với attribution đúng). Ngành chưa đạt đồng thuận về ranh giới ở đâu.
Điều Anthropic ghi lại là đầu rõ ràng nhất, trắng trợn nhất của spectrum đó: trích xuất có mục tiêu, bí mật, quy mô công nghiệp qua tài khoản giả mạo. Đó không phải vùng xám.
Với developer và công ty xây dựng trên API services: điều này quan trọng vì nó định hình cách API provider sẽ phản ứng. Kỳ vọng rate limit sẽ thắt chặt hơn, giám sát usage tăng lên, và điều khoản dịch vụ về training data trở nên rõ ràng hơn. Các distillation attack được Anthropic tiết lộ đã thay đổi cách các lab lớn nghĩ về chính sách API của họ.
Frontier ngày càng khó đánh cắp hơn. Điều đó thay đổi kinh tế học cho tất cả mọi người.