什麼是TurboQuant?Google突破性AI壓縮技術,可將KV快取縮小6倍並實現推理速度提升8倍

核心重點摘要
- TurboQuant 是 Google Research 推出的線上向量量化演算法,它能將大型語言模型中的鍵值快取壓縮至每個值僅需 3 位元,並在 LongBench、Needle-in-a-Haystack 和 RULER 等基準測試中達成 零準確度損失。
- 基準測試顯示,與 32 位元基準相比,KV 快取實現了 6 倍記憶體壓縮,並在 NVIDIA H100 GPU 上的注意力邏輯計算中達到高達 8 倍的加速。
- 該技術無需訓練或微調,可立即應用於現有模型,如 Gemma、Mistral、Llama 和 Qwen。
- 社群回饋表明,它能使消費級硬體處理顯著更長的上下文視窗,同時輸出品質與全精度推理幾乎完全相同。
- 此技術結合了隨機正交旋轉、用於主要壓縮的 PolarQuant,以及用於殘差校正的 1 位元量化 Johnson-Lindenstrauss。
什麼是 TurboQuant?
TurboQuant 是由 Google Research 開發的一種先進向量量化方法,重新定義了大型語言模型和高維度向量搜尋的效率。它於 2026 年 3 月底發布,並計劃在 ICLR 2026 上發表,主要針對 transformer 推理中的關鍵記憶體瓶頸:KV 快取。
分析顯示,當上下文長度增長到數萬或數十萬個詞元時,KV 快取——儲存每個詞元預先計算的鍵和值向量——可能消耗數 GB 的 GPU 記憶體,並主導推理成本。TurboQuant 將這些高維度向量(通常是 16 或 32 位元浮點數)壓縮至超低精度,卻不犧牲模型品質或速度。
不同於傳統的訓練後量化(通常需要校準資料且仍會導致準確度下降),TurboQuant 是資料無關的,並在數學上被證明能在均方誤差和內積失真方面逼近資訊理論極限。
現代大型語言模型中的 KV 快取瓶頸
在 transformer 架構中,自注意力機制依賴 KV 快取來避免對先前見過的詞元重新計算鍵和值。對於一個隱藏維度為 d、序列長度為 n 的模型,快取隨層數×頭數×每個值的位元組數,以 O(n × d × ...) 線性增長。
基準測試表明,在長上下文任務中,此快取的大小可能超過模型權重。標準的 16 位元 KV 儲存在消費級 GPU 或高吞吐量服務環境(如 vLLM)中迅速變得難以承受。先前的壓縮嘗試(例如帶有每塊縮放因子的 4 位元或 8 位元量化)因儲存歸一化常數而引入了記憶體開銷,將實際增益限制在最多 2-3 倍,同時還可能導致輸出偏差。
TurboQuant 徹底消除了這種開銷,使得在先前僅能處理 8k 上下文視窗的硬體上,實務部署具有 32k–128k+ 上下文視窗的模型成為可能。
TurboQuant 運作原理:技術深入剖析
TurboQuant 作為一個兩階段線上演算法,專門針對均方誤差(MSE)和內積保留進行優化——這兩者對於精確的注意力評分至關重要。
第一階段:隨機旋轉 + PolarQuant 壓縮
-
隨機正交旋轉:每個輸入的鍵值(KV)向量會經過一個與數據無關的隨機正交變換(透過高斯矩陣的 QR 分解實現)。這會將係數的幅度均勻地重新分配到各個維度,將大型語言模型(LLM)激活中常見的準稀疏結構轉化為一個行為良好的分佈。
旋轉後,每個座標在區間 [-1, 1] 上遵循已知的 Beta((d-1)/2, (d-1)/2) 分佈。這種可預測性允許我們透過分析方式預先計算出最佳的量化中心點。
-
PolarQuant(高品質標量量化):
- 向量被歸一化,並透過遞歸配對維度從笛卡爾座標系轉換到極座標系。
- 半徑(Radius)捕獲幅度;角度(Angles)編碼方向性(語義)資訊。
- 由於角度分佈是集中且可預測的,因此消除了昂貴的區塊級別歸一化常量。
- 一個針對 Beta 分佈上的 MSE 優化的 Lloyd-Max 量化器,將每個座標映射到一個低位元離散值(例如,主階段總共使用 3 位元)。
此階段實現了大部分的壓縮(佔總位元數的主要部分),同時保留了幾乎所有向量資訊。
第二階段:QJL 殘差校正
在 PolarQuant 之後仍存在微小的殘差誤差。TurboQuant 應用 量化版 Johnson-Lindenstrauss (QJL) 變換,僅使用 每個向量 1 位元(+1 或 -1 符號)。這可以校正內積偏差,而不增加記憶體開銷。
結果是:重建的向量在餘弦相似度和內積相關性方面,與原始向量達到了近乎完美的匹配(在社群測試中,3 位元下達到 0.983+)。
整個過程對加速器友好,融合的 Triton 核心使得可以直接從壓縮索引計算注意力對數值——在推理過程中無需進行完整的反量化。
效能基準測試與實際效能表現
獨立的效能基準測試與 Google 內部評估均證實了卓越的成果:
記憶體:3 位元 KV 快取相較於 16 位元基準線可實現 約 6 倍的減少;在某些工作負載中,4 位元變體能實現 8 倍的實際增益。
- 速度:在 H100 GPU 上,4 位元 TurboQuant 相較於未量化的 32 位元鍵,能提供 高達 8 倍更快 的注意力計算。
- 準確性:在 8k–64k 上下文長度的「大海撈針」(Needle-in-a-Haystack)測試中達成完美召回。對於包括 Gemma、Mistral 和 Qwen3.5 在內的模型,在 LongBench、ZeroSCROLLS、RULER 和 L-Eval 測試上均無效能衰退。
. 社群測試(例如,在 RTX 4090 上運行 Gemma-3-4B):
- 2 位元融合核心:輸出與 fp16 基準線完全相同,KV 快取從 26 MB 減少至 7 MB。
- 端到端吞吐量匹配或超越基準線,同時使用減少 70%+ 的 VRAM。
在 GloVe (d=200) 上進行的向量搜尋評估顯示,儘管使用更小的碼本且無需資料集調校,其頂級 k 召回率仍優於產品量化(PQ)和 RabbiQ。
如何實作 TurboQuant:逐步指南
Google 尚未發布官方生產代碼,但開源社群在公告發布後數日內就提供了可運行的實作。以下是今日入門的方法。
1. 使用 PyTorch 快速開始(研究/原型開發)
使用 tonbistudio/turboquant-pytorch 從零開始的實作:
/ 複製儲存庫並安裝依賴項(PyTorch + Triton)。
. 為您的模型的隱藏維度和目標位元寬度預先計算 Lloyd-Max 碼本。
. 修補 Hugging Face DynamicCache,以便在每次 cache.update() 調用時進行量化。
. 執行示範腳本:對 Gemma-3-4B 或類似模型運行 python run_demo.py --fused --bits 3。
融合的 Triton 核心會預先旋轉查詢一次,並直接從 uint8 索引計算點積,從而提供 1.2 倍以上的端到端加速。
2. 使用 vLLM 進行生產環境部署
已分叉的 vLLM 整合(例如,mitkox/vllm-turboquant 或 flash7777/vllm turboquant 分支):
- 安裝自訂的 vLLM 建置版本。
- 在引擎參數中啟用 TurboQuant(支援 2–4 位元鍵/值)。
- 使用您現有的 OpenAI 相容伺服器進行部署——無需更改模型。 -L 對於長上下文工作負載,預期可立即獲得 KV 快取節省和更高的吞吐量。
3. 在 Apple Silicon 上進行本地推理(MLX)
MLX 原生移植(例如,helgklaizar/turboquant_mlx)可在 M 系列 Mac 上啟用 TurboQuant:
pip install mlx-turboquant(社群套件可用)。- 透過 MLX 載入模型並套用快取包裝器。
- 非常適合在裝置上進行 32k+ 上下文的實驗。
4. llama.cpp 整合(CPU/GPU)
實驗性分支(TheTom/llama-cpp-turboquant)正在積極優化中,以支援 GGUF 相容模型。
專業建議:
- 從 3 位元或 4 位元開始,以實現零感知品質損失。
- 在融合核心中使用預旋轉查詢路徑,以最小化額外開銷。
- 先在 Needle-in-a-Haystack 上測試,驗證保真度。
- 使用
nvidia-smi等工具監控 VRAM——預期有效上下文擴展可達 4–7 倍。
隨著優化技術的成熟,預計幾週內 vLLM、TensorRT-LLM 和 llama.cpp 將提供主流支援。
TurboQuant 與傳統量化方法
傳統方法(例如 GPTQ、AWQ 或基礎 int4)依賴每組縮放比例和校準,通常為每個數值引入 1–2 位元的額外開銷,並降低長上下文性能。產品量化則需要大型、資料集特定的碼本和離線調校。
TurboQuant 與眾不同:
- 零開銷:不儲存常數或每區塊元數據。
- 資料無關:可即時適用於任何模型。
- 近乎最佳失真:已數學證明在均方誤差和內積方面均如此。
- 線上友好:在推論過程中執行,延遲可忽略不計。
社群實作證明,即使採用激進的 2 位元 TurboQuant,也能達到全精度輸出品質,而標準的 4 位元方法在此情況下則會失敗。
應用與未來影響
TurboQuant 實現了:
- 更長上下文在消費級硬體上(例如單張 RTX 4090 處理 128k 詞元)。
- 成本降低:雲端服務提供商的推論成本降低達 50% 以上。
- 邊緣 AI:高效的語義搜尋和裝置端 LLM。
- 向量資料庫:更快速、更密集的索引,並具備最先進的召回率。
隨著採用率提高,預計會出現混合權重 + KV 快取量化流水線,將 700 億以上參數的模型推入手機和筆記型電腦領域。
結論
TurboQuant 代表了 AI 系統工程中罕見的飛躍:在極致效率提升的同時,不犧牲品質。通過優雅的數學洞察——隨機旋轉、極座標幾何和殘差校正——解決了 KV 快取瓶頸,Google Research 提供了一個藍圖,社群已開始將其轉化為生產就緒的工具。
無論您是執行本地模型、提供高吞吐量 API,還是建構向量搜尋應用,現在正是實驗的好時機。克隆一個社群實作,與您目前的設定進行基準測試,並大幅擴展您的上下文視窗。記憶體受限的 AI 時代正在結束——TurboQuant 使得更大、更快、更便宜的推論在今天成為現實。