Back to Blog
BlogMarch 29, 20265

टर्बोक्वांट क्या है? Google की क्रांतिकारी AI संपीड़न तकनीक जो 6 गुना छोटा KV कैश और 8 गुना तेज़ इनफेरेंस प्रदान करती है

टर्बोक्वांट क्या है? Google की क्रांतिकारी AI संपीड़न तकनीक जो 6 गुना छोटा KV कैश और 8 गुना तेज़ इनफेरेंस प्रदान करती है

मुख्य निष्कर्ष

  • TurboQuant Google Research का ऑनलाइन वेक्टर क्वांटाइजेशन एल्गोरिदम है जो बड़े भाषा मॉडल में की.

वैल्यू (KV) कैश को प्रति वैल्यू मात्र 3 बिट्स तक संपीड़ित करता है और साथ ही LongBench, Needle-in-a-Haystack और RULER जैसे बेंचमार्क पर शून्य सटीकता हानि प्राप्त करता है।

  • बेंचमार्क KV कैश में 6 गुना मेमोरी कमी और NVIDIA H100 GPUs पर 32-बिट बेसलाइन्स की तुलना में अटेंशन लॉजिट कंप्यूटेशन में 8 गुना तक गति वृद्धि दर्शाते हैं।
  • इसे किसी प्रशिक्षण या फाइन-ट्यूनिंग की आवश्यकता नहीं है, जिससे यह Gemma, Mistral, Llama और Qwen जैसे मौजूदा मॉडल्स पर तत्काल लागू हो सकता है।
  • समुदाय की प्रतिक्रिया बताती है कि यह उपभोक्ता-ग्रेड हार्डवेयर को नाटकीय रूप से लंबे संदर्भ विंडोज़ को संभालने में सक्षम बनाता है, जिसमें आउटपुट गुणवत्ता पूर्ण-सटीकता अनुमान के लगभग समान होती है।
  • यह तकनीक मुख्य संपीड़न के लिए यादृच्छिक ऑर्थोगोनल रोटेशन, PolarQuant और अवशिष्ट सुधार के लिए 1-बिट Quantized Johnson-Lindenstrauss (QJL) को जोड़ती है।

TurboQuant क्या है?

TurboQuant एक उन्नत वेक्टर क्वांटाइजेशन विधि है जिसे Google Research द्वारा विकसित किया गया है और यह बड़े भाषा मॉडल्स और उच्च. आयामी वेक्टर खोज के लिए दक्षता को पुनः परिभाषित करता है। मार्च 2026 के अंत में घोषित और ICLR 2026 में प्रस्तुति के लिए निर्धारित, यह ट्रांसफॉर्मर अनुमान में महत्वपूर्ण मेमोरी अड़चन को लक्षित करता है: KV कैश।

विश्लेषण से पता चलता है कि जब संदर्भ लंबाई दसियों या सैकड़ों हज़ारों टोकन तक बढ़ती है, तो KV कैश—जो प्रत्येक टोकन के लिए पूर्व-गणित की गई कुंजी और मान वेक्टर संग्रहीत करता है—GPU मेमोरी के गीगाबाइट्स का उपभोग कर सकता है और अनुमान लागत पर हावी हो सकता है। TurboQuant इन उच्च. आयामी वेक्टरों (आमतौर पर 16- या 32-बिट फ़्लोट्स) को अति-कम सटीकता में संपीड़ित करता है, बिना मॉडल गुणवत्ता या गति में सामान्य समझौतों के।

पारंपरिक प्रशिक्षण-पश्चात क्वांटाइजेशन से अलग, जिसके लिए अक्सर कैलिब्रेशन डेटा की आवश्यकता होती है और फिर भी सटीकता कमी होती है, TurboQuant डेटा-अनजान है और गणितीय रूप से सिद्ध है कि यह माध्य-वर्ग त्रुटि (MSE) और आंतरिक-उत्पाद विरूपण दोनों के लिए सूचना-सैद्धांतिक सीमाओं तक पहुंचता है।

आधुनिक LLMs में KV कैश की अड़चन

ट्रांसफॉर्मर आर्किटेक्चर में, स्व. ध्यान KV कैश पर निर्भर करता है ताकि पहले देखे गए टोकन्स के लिए कुंजियों और मानों की पुनर्गणना से बचा जा सके। d छुपी हुई आयाम और n अनुक्रम लंबाई वाले मॉडल के लिए, कैश रैखिक रूप से O(n × d × परतें × हेड्स × प्रति मान बाइट्स) के रूप में बढ़ता है।

बेंचमार्क दर्शाते हैं कि लंबे-संदर्भ कार्यों के दौरान यह कैश आकार में मॉडल वज़न से अधिक हो सकता है। मानक 16-बिट KV संग्रहण उपभोक्ता GPUs पर या vLLM जैसे उच्च-थ्रूपुट सर्विंग वातावरण में जल्दी ही निषेधात्मक हो जाता है। पूर्व संपीड़न प्रयासों (जैसे, प्रति-ब्लॉक स्केल्स के साथ 4-बिट या 8-बिट क्वांटाइजेशन) ने सामान्यीकरण स्थिरांक संग्रहीत करने से मेमोरी ओवरहेड पेश किया, जिससे वास्तविक-विश्व लाभ अधिकतम 2-3 गुना तक सीमित रह गए और आउटपुट विचलन का जोखिम बना रहा।

TurboQuant इस ओवरहेड को पूरी तरह से समाप्त कर देता है, जिससे 32k–128k+ संदर्भ विंडोज़ वाले मॉडल्स का व्यावहारिक परिनियोजन उस हार्डवेयर पर संभव हो जाता है जो पहले 8k पर संघर्ष करता था।

टर्बोक्वांट कैसे काम करता है: तकनीकी गहराई से जानकारी

टर्बोक्वांट दो-चरण, ऑनलाइन एल्गोरिदम के रूप में कार्य करता है जो MSE और इनर-प्रॉडक्ट संरक्षण दोनों के लिए अनुकूलित है—सटीक ध्यान स्कोर के लिए महत्वपूर्ण।

चरण 1: रैंडम रोटेशन + पोलरक्वांट कम्प्रेशन

  1. रैंडम ऑर्थोगोनल रोटेशन: प्रत्येक इनपुट KV वेक्टर एक डेटाaस्वतंत्र रैंडम ऑर्थोगोनल ट्रांसफॉर्मेशन से गुजरता है (गॉसियन मैट्रिक्स के QR डिकम्पोज़िशन के माध्यम से)। यह गुणांक परिमाण को आयामों में समान रूप से पुनर्वितरित करता है, एलएलएम एक्टिवेशन की विशिष्ट अर्ध-स्पार्स संरचना को एक सुव्यवस्थित वितरण में परिवर्तित करता है।

    रोटेशन के बाद, प्रत्येक निर्देशांक [-1, 1] पर एक ज्ञात बीटा((डी-1)/2, (डी-1)/2) वितरण का अनुसरण करता है। इस पूर्वानुमेयता से विश्लेषणात्मक रूप से इष्टतम क्वांटिज़ेशन सेंट्रोइड्स की पूर्वगणना संभव होती है।

  2. पोलरक्वांट (उच्च-गुणवत्ता स्केलर क्वांटिज़ेशन):

    • वेक्टर सामान्यीकृत होते हैं और कार्तीय से ध्रुवीय निर्देशांक में आयामों को पुनरावर्ती रूप से जोड़कर रूपांतरित किए जाते हैं।
    • त्रिज्या परिमाण को कैप्चर करती है; कोण दिशात्मक (सिमेंटिक) जानकारी को एनकोड करते हैं।
    • चूंकि कोणीय वितरण केंद्रित और पूर्वानुमेय होते हैं, महंगे प्रति,ब्लॉक सामान्यीकरण स्थिरांक समाप्त हो जाते हैं।
    • बीटा वितरण के लिए MSE पर अनुकूलित लॉयड-मैक्स क्वांटाइज़र—प्रत्येक निर्देशांक को कम-बिट असतत मान (उदाहरण के लिए, मुख्य चरण के लिए कुल 3 बिट्स) में मैप करता है।

यह चरण अधिकांश संपीड़न (बिट्स का बहुमत) प्रदान करता है, जबकि लगभग पूरे वेक्टर की जानकारी को संरक्षित करता है।

चरण 2: QJL रेसिडुअल करेक्शन

पोलरक्वांट के बाद एक छोटी रेसिडुअल त्रुटि बची रहती है। टर्बोक्वांट क्वांटाइज़्ड जॉनसन/लिंडनस्ट्रॉस (QJL) ट्रांसफॉर्म लागू करता है जो केवल प्रति वेक्टर 1 बिट (+1 या -1 चिह्न) का उपयोग करता है। यह मेमोरी ओवरहेड बढ़ाए बिना इनर-प्रॉडक्ट बायस को सही करता है।

परिणाम: पुनर्निर्मित वेक्टर मूल के साथ लगभग परिपूर्ण कोसाइन समानता और इनर-प्रॉडक्ट सहसंबंध (समुदाय परीक्षणों में 3 बिट्स पर 0.983+) प्राप्त करते हैं।

पूरी प्रक्रिया एक्सेलेरेटर-अनुकूल है, जिसमें फ्यूज्ड ट्राइटन कर्नल संकुचित सूचकांकों से ध्यान लॉगिट्स की प्रत्यक्ष गणना सक्षम करते हैं—इनफेरेंस के दौरान पूर्ण डीक्वांटिज़ेशन की आवश्यकता नहीं होती।

बेंचमार्क और वास्तविक दुनिया का प्रदर्शन

स्वतंत्र बेंचमार्क और Google की आंतरिक मूल्यांकन रिपोर्ट असाधारण परिणामों की पुष्टि करते हैं:

  • मेमोरी: 3-बिट KV कैश, 16-बिट बेसलाइन की तुलना में ~6 गुना कमी प्रदान करता है; 4-बिट वेरिएंट कुछ वर्कलोड में 8 गुना प्रभावी लाभ प्राप्त करते हैं।
  • गति: H100 GPU पर अनक्वांटाइज़्ड 32-बिट कुंजियों की तुलना में, 4+बिट TurboQuant 8 गुना तक तेज ध्यान गणना देता है।
  • सटीकता: 8k–64k संदर्भों में नीडल-इन-ए-हेस्टैक पर पूर्ण रिकॉल। जेमा, मिस्ट्रल, और Qwen3.5 जैसे मॉडलों के लिए LongBench, ZeroSCROLLS, RULER, और L-Eval पर शून्य गिरावट।
  • कम्युनिटी टेस्ट (उदाहरण: RTX 4090 पर Gemma-3-4B):
    • 2-बिट फ्यूज़्ड कर्नल: fp16 बेसलाइन के समान आउटपुट, KV कैश 26 MB से घटकर 7 MB हो गया।
    • एंड,टू-एंड थ्रूपुट बेसलाइन से मेल खाता है या उसे पार करता है, जबकि 70%+ कम VRAM का उपयोग करता है।

GloVe (d=200) पर वेक्टर खोज मूल्यांकन छोटे कोडबुक और बिना डेटासेट ट्यूनिंग के होने के बावजूद, प्रोडक्ट क्वांटाइज़ेशन (PQ) और RabbiQ की तुलना में बेहतर टॉप-के रिकॉल दिखाता है।

TurboQuant को कैसे लागू करें: चरण-दर1चरण मार्गदर्शिका

Google ने आधिकारिक प्रोडक्शन कोड जारी नहीं किया है, लेकिन ओपन-सोर्स कम्युनिटी ने घोषणा के कुछ दिनों के भीतर कार्यशील कार्यान्वयन प्रदान किए हैं। यहां बताया गया है कि आज ही कैसे शुरू करें।

1. PyTorch के साथ त्वरित प्रारंभ (अनुसंधान/प्रोटोटाइपिंग)

tonbistudio/turboquant-pytorch पर खरोंच से कार्यान्वयन का उपयोग करें:

  • रेपो को क्लोन करें और निर्भरताएं (PyTorch + Triton) स्थापित करें।
  • अपने मॉडल की छिपी हुई आयाम और लक्ष्य बिट-चौड़ाई के लिए Lloyd-Max कोडबुक पहले से गणना करें।
  • हर cache.update() कॉल पर क्वांटाइज़ करने के लिए Hugging Face DynamicCache को पैच करें।
  • डेमो स्क्रिप्ट चलाएं: python run_demo.py --fused --bits 3 Gemma-3-4B या इसी तरह के लिए।

फ्यूज़्ड Triton कर्नल क्वेरीज़ को एक बार प्री-रोटेट करते हैं और सीधे uint8 इंडिसेज़ से डॉट प्रोडक्ट्स की गणना करते हैं, जो 1.2x+ एंड-टू-एंड स्पीडअप देते हैं।

2. vLLM के साथ प्रोडक्शन सर्विंग

फोर्क किए गए vLLM इंटीग्रेशन (जैसे mitkox/vllm-turboquant या flash7777/vllm turboquant ब्रांच):

  • कस्टम vLLM बिल्ड इंस्टॉल करें।
  • इंजिन आर्गुमेंट्स में TurboQuant सक्षम करें (2–4 बिट कुंजी/मान समर्थित)।
  • अपने मौजूदा OpenAI-संगत सर्वर के साथ तैनात करें—मॉडल परिवर्तन की आवश्यकता नहीं है।
  • लॉन्ग-कॉन्टेक्स्ट वर्कलोड के लिए तत्काल KV कैश बचत और उच्च थ्रूपुट की उम्मीद करें।

3. Apple Silicon पर स्थानीय अनुमान (MLX)

MLX-नेटिव पोर्ट (जैसे helgklaizar/turboquant_mlx) M-सीरीज़ Mac पर TurboQuant सक्षम करते हैं:

  • pip install mlx-turboquant (कम्युनिटी पैकेज उपलब्ध)।
  • MLX के माध्यम से मॉडल लोड करें और कैश रैपर लागू करें।
  • 32k+ संदर्भों के साथ डिवाइस-पर प्रयोग के लिए आदर्श।

4. llama.cpp एकीकरण (CPU/GPU)

प्रायोगिक शाखाएँ (TheTom/llama-cpp-turboquant) GGUF-संगत मॉडलों के लिए सक्रिय अनुकूलन के तहत हैं।

पेशेवर सुझाव:

  • शून्य गुणवत्ता हानि के लिए 3. या 4-बिट से शुरुआत करें।
  • अधिकतम दक्षता के लिए फ्यूज़्ड कर्नेल में पूर्व-रोटेटेड क्वेरी पथों का उपयोग करें। . पहले नीडल-इन-ए-हेस्टैक पर परीक्षण करके विश्वसनीयता सत्यापित करें।
  • nvidia-smi जैसे टूल के साथ VRAM पर नज़र रखें—4–7x प्रभावी संदर्भ स्केलिंग की अपेक्षा रखें।

vLLM, TensorRT-LLM, और llama.cpp में मुख्यधारा समर्थन सप्ताहों के भीतर अपेक्षित है क्योंकि अनुकूलन परिपक्व होते हैं।

पारंपरिक क्वांटिज़ेशन विधियों बनाम टर्बोक्वांट

पारंपरिक दृष्टिकोण (जैसे, GPTQ, AWQ, या मूल int4) प्रति-ग्रुप स्केल और कैलिब्रेशन पर निर्भर करते हैं, जो अक्सर प्रति मूल्य 1–2 बिट्स ओवरहेड लाते हैं और लंबे-संदर्भ प्रदर्शन को घटाते हैं। प्रॉडक्ट क्वांटिज़ेशन को बड़े, डेटासेट-Lविशिष्ट कोडबुक और ऑफलाइन ट्यूनिंग की आवश्यकता होती है।

टर्बोक्वांट अलग खड़ा है:

  • शून्य ओवरहेड: कोई संग्रहीत स्थिरांक या प्रति–ब्लॉक मेटाडेटा नहीं। .

  • डेटा-अनजान: किसी भी मॉडल पर तुरंत काम करता है।

  • निकट-इष्टतम विरूपण: एमएसई और आंतरिक उत्पादों दोनों के लिए गणितीय रूप से सिद्ध।

  • ऑनलाइन-अनुकूल: नगण्य विलंबता के साथ अनुमान के दौरान चलता है।

सामुदायिक कार्यान्वयन प्रदर्शित करते हैं कि यहाँ तक कि आक्रामक 2-बिट टर्बोक्वांट भी पूर्ण-परिशुद्धता आउटपुट गुणवत्ता से मेल खा सकता है जहाँ मानक 4-बिट विधियाँ विफल होती हैं।

अनुप्रयोग और भविष्य का प्रभाव

टर्बोक्वांट खोलता है: |

Share this article