TurboQuant: Đột Phá 100x KV Cache Của Google và Ý Nghĩa Với AI Long-Context
Nghiên cứu TurboQuant của Google giảm memory overhead KV cache ~100x bằng thuật toán hai bước kết hợp PolarQuant vector rotation và Johnson-Lindenstrauss compression. Điều này có thể làm cho model context 2M token trở nên khả thi kinh tế với nhiều team hơn.