Nền tảng phỏng vấn giọng nói AI

Quy trình tuyển dụng kỹ thuật đang gặp nhiều vấn đề. Các nhà tuyển dụng dành 60% thời gian cho các cuộc gọi sàng lọc ban đầu mà có thể được tự động hóa. Ứng viên phải chờ đợi phản hồi trong nhiều ngày. Và chất lượng sàng lọc thay đổi tùy thuộc vào người thực hiện. Bốn quản lý kỹ thuật đã dành hơn 10 giờ mỗi tuần cho các cuộc phỏng vấn qua điện thoại vòng đầu tiên, và tỷ lệ tín hiệu trên nhiễu là rất thấp.

Tôi muốn xây dựng một hệ thống có thể xử lý việc sàng lọc kỹ thuật ban đầu bằng cuộc hội thoại giọng nói thực tế — không phải kiểu “tự ghi âm trả lời 5 câu hỏi này”, mà là cuộc đối thoại qua lại thực sự, nơi AI lắng nghe, phản hồi và điều chỉnh dựa trên câu trả lời của ứng viên.

Những gì chúng tôi đã xây dựng

Một nền tảng nơi ứng viên tham gia cuộc gọi và có cuộc hội thoại tự nhiên với người phỏng vấn AI. AI đưa ra các câu hỏi kỹ thuật, phản hồi dựa trên câu trả lời, thăm dò sâu hơn khi phản hồi mơ hồ và tạo các báo cáo đánh giá có cấu trúc sau đó.

Điểm mấu chốt: không có nhà cung cấp AI đơn lẻ nào làm tốt mọi thứ. Vì vậy, chúng tôi đã xây dựng một kiến trúc đa nhà cung cấp sử dụng mỗi mô hình cho những gì nó làm tốt nhất.

Kiến trúc

┌─────────────┐     ┌──────────────────┐     ┌────────────────────┐
│   Trình duyệt│────▶│   LiveKit SFU    │────▶│   Agent Server     │
│  (WebRTC)    │◀────│   (Media Relay)  │◀────│   (Python)         │
└─────────────┘     └──────────────────┘     └────────┬───────────┘
                                                       │
                                    ┌──────────────────┼──────────────────┐
                                    │                  │                  │
                               ┌─────▼─────┐    ┌──────▼──────┐   ┌──────▼──────┐
                               │  OpenAI    │    │  Gemini     │   │  Bedrock    │
                               │  Realtime  │    │  Live       │   │  Nova       │
                               │  (Voice)   │    │  (Analysis) │   │  (Eval)     │
                               └───────────┘    └─────────────┘   └─────────────┘

Trách nhiệm của các nhà cung cấp

LiveKit xử lý hạ tầng thời gian thực — kết nối WebRTC, định tuyến âm thanh, quản lý phòng và ghi âm. Chúng tôi sử dụng LiveKit Agents SDK để kết nối các luồng truyền thông và backend AI của mình.

OpenAI Realtime API là động cơ hội thoại chính. Độ trễ dưới 200ms là cực kỳ quan trọng — bất cứ điều gì trên 500ms sẽ khiến cuộc hội thoại cảm thấy không tự nhiên. Chúng tôi sử dụng function calling để cho phép AI chuyển đổi giữa các phần phỏng vấn (giới thiệu → kỹ thuật → hành vi → kết thúc).

Gemini Live thực hiện phân tích đa phương thức song song. Trong khi OpenAI xử lý giọng nói, Gemini xử lý nguồn dữ liệu video để tìm các tín hiệu tương tác — ứng viên có đang đọc từ ghi chú không? Họ có đang chia sẻ màn hình để vẽ sơ đồ không? Nó cũng thực hiện phân tích mã thời gian thực khi ứng viên chia sẻ IDE của họ.

Amazon Bedrock Nova xử lý việc đánh giá sau phỏng vấn. Nova Pro tạo các báo cáo đánh giá có cấu trúc, chấm điểm ứng viên trên các khía cạnh (độ sâu kỹ thuật, giao tiếp, giải quyết vấn đề). Chúng tôi chọn Bedrock vì các tính năng doanh nghiệp của nó — VPC endpoints, tích hợp IAM và các chứng chỉ tuân thủ mà bộ phận nhân sự yêu cầu.

Kết quả

Sau 3 tháng triển khai thực tế với khoảng 200 cuộc phỏng vấn:

Tiết kiệm thời gian: Các quản lý kỹ thuật giải phóng hơn 8 giờ/tuần từ việc sàng lọc vòng đầu
Tính nhất quán: Điểm hài lòng của ứng viên cải thiện 34% — 92% đánh giá là tự nhiên
Thông lượng: Số lượng ứng viên được sàng lọc mỗi tuần tăng gấp 3 lần, phục vụ 24/7
Độ chính xác đánh giá: 91% sự đồng thuận giữa đánh giá của AI và đánh giá của người phỏng vấn sau đó