BlogMarch 29, 202676

टर्बोक्वांट क्या है? Google की क्रांतिकारी AI संपीड़न तकनीक जो 6 गुना छोटा KV कैश और 8 गुना तेज़ इनफेरेंस प्रदान करती है

मुख्य निष्कर्ष

TurboQuant Google Research का ऑनलाइन वेक्टर क्वांटाइजेशन एल्गोरिदम है जो बड़े भाषा मॉडल में की.

वैल्यू (KV) कैश को प्रति वैल्यू मात्र 3 बिट्स तक संपीड़ित करता है और साथ ही LongBench, Needle-in-a-Haystack और RULER जैसे बेंचमार्क पर शून्य सटीकता हानि प्राप्त करता है।

बेंचमार्क KV कैश में 6 गुना मेमोरी कमी और NVIDIA H100 GPUs पर 32-बिट बेसलाइन्स की तुलना में अटेंशन लॉजिट कंप्यूटेशन में 8 गुना तक गति वृद्धि दर्शाते हैं।
इसे किसी प्रशिक्षण या फाइन-ट्यूनिंग की आवश्यकता नहीं है, जिससे यह Gemma, Mistral, Llama और Qwen जैसे मौजूदा मॉडल्स पर तत्काल लागू हो सकता है।
समुदाय की प्रतिक्रिया बताती है कि यह उपभोक्ता-ग्रेड हार्डवेयर को नाटकीय रूप से लंबे संदर्भ विंडोज़ को संभालने में सक्षम बनाता है, जिसमें आउटपुट गुणवत्ता पूर्ण-सटीकता अनुमान के लगभग समान होती है।
यह तकनीक मुख्य संपीड़न के लिए यादृच्छिक ऑर्थोगोनल रोटेशन, PolarQuant और अवशिष्ट सुधार के लिए 1-बिट Quantized Johnson-Lindenstrauss (QJL) को जोड़ती है।

TurboQuant क्या है?

TurboQuant एक उन्नत वेक्टर क्वांटाइजेशन विधि है जिसे Google Research द्वारा विकसित किया गया है और यह बड़े भाषा मॉडल्स और उच्च. आयामी वेक्टर खोज के लिए दक्षता को पुनः परिभाषित करता है। मार्च 2026 के अंत में घोषित और ICLR 2026 में प्रस्तुति के लिए निर्धारित, यह ट्रांसफॉर्मर अनुमान में महत्वपूर्ण मेमोरी अड़चन को लक्षित करता है: KV कैश।

विश्लेषण से पता चलता है कि जब संदर्भ लंबाई दसियों या सैकड़ों हज़ारों टोकन तक बढ़ती है, तो KV कैश—जो प्रत्येक टोकन के लिए पूर्व-गणित की गई कुंजी और मान वेक्टर संग्रहीत करता है—GPU मेमोरी के गीगाबाइट्स का उपभोग कर सकता है और अनुमान लागत पर हावी हो सकता है। TurboQuant इन उच्च. आयामी वेक्टरों (आमतौर पर 16- या 32-बिट फ़्लोट्स) को अति-कम सटीकता में संपीड़ित करता है, बिना मॉडल गुणवत्ता या गति में सामान्य समझौतों के।

पारंपरिक प्रशिक्षण-पश्चात क्वांटाइजेशन से अलग, जिसके लिए अक्सर कैलिब्रेशन डेटा की आवश्यकता होती है और फिर भी सटीकता कमी होती है, TurboQuant डेटा-अनजान है और गणितीय रूप से सिद्ध है कि यह माध्य-वर्ग त्रुटि (MSE) और आंतरिक-उत्पाद विरूपण दोनों के लिए सूचना-सैद्धांतिक सीमाओं तक पहुंचता है।

आधुनिक LLMs में KV कैश की अड़चन

ट्रांसफॉर्मर आर्किटेक्चर में, स्व. ध्यान KV कैश पर निर्भर करता है ताकि पहले देखे गए टोकन्स के लिए कुंजियों और मानों की पुनर्गणना से बचा जा सके। d छुपी हुई आयाम और n अनुक्रम लंबाई वाले मॉडल के लिए, कैश रैखिक रूप से O(n × d × परतें × हेड्स × प्रति मान बाइट्स) के रूप में बढ़ता है।

बेंचमार्क दर्शाते हैं कि लंबे-संदर्भ कार्यों के दौरान यह कैश आकार में मॉडल वज़न से अधिक हो सकता है। मानक 16-बिट KV संग्रहण उपभोक्ता GPUs पर या vLLM जैसे उच्च-थ्रूपुट सर्विंग वातावरण में जल्दी ही निषेधात्मक हो जाता है। पूर्व संपीड़न प्रयासों (जैसे, प्रति-ब्लॉक स्केल्स के साथ 4-बिट या 8-बिट क्वांटाइजेशन) ने सामान्यीकरण स्थिरांक संग्रहीत करने से मेमोरी ओवरहेड पेश किया, जिससे वास्तविक-विश्व लाभ अधिकतम 2-3 गुना तक सीमित रह गए और आउटपुट विचलन का जोखिम बना रहा।

TurboQuant इस ओवरहेड को पूरी तरह से समाप्त कर देता है, जिससे 32k–128k+ संदर्भ विंडोज़ वाले मॉडल्स का व्यावहारिक परिनियोजन उस हार्डवेयर पर संभव हो जाता है जो पहले 8k पर संघर्ष करता था।

टर्बोक्वांट कैसे काम करता है: तकनीकी गहराई से जानकारी

टर्बोक्वांट दो-चरण, ऑनलाइन एल्गोरिदम के रूप में कार्य करता है जो MSE और इनर-प्रॉडक्ट संरक्षण दोनों के लिए अनुकूलित है—सटीक ध्यान स्कोर के लिए महत्वपूर्ण।

चरण 1: रैंडम रोटेशन + पोलरक्वांट कम्प्रेशन

रैंडम ऑर्थोगोनल रोटेशन: प्रत्येक इनपुट KV वेक्टर एक डेटाaस्वतंत्र रैंडम ऑर्थोगोनल ट्रांसफॉर्मेशन से गुजरता है (गॉसियन मैट्रिक्स के QR डिकम्पोज़िशन के माध्यम से)। यह गुणांक परिमाण को आयामों में समान रूप से पुनर्वितरित करता है, एलएलएम एक्टिवेशन की विशिष्ट अर्ध-स्पार्स संरचना को एक सुव्यवस्थित वितरण में परिवर्तित करता है।

रोटेशन के बाद, प्रत्येक निर्देशांक [-1, 1] पर एक ज्ञात बीटा((डी-1)/2, (डी-1)/2) वितरण का अनुसरण करता है। इस पूर्वानुमेयता से विश्लेषणात्मक रूप से इष्टतम क्वांटिज़ेशन सेंट्रोइड्स की पूर्वगणना संभव होती है।
पोलरक्वांट (उच्च-गुणवत्ता स्केलर क्वांटिज़ेशन):
- वेक्टर सामान्यीकृत होते हैं और कार्तीय से ध्रुवीय निर्देशांक में आयामों को पुनरावर्ती रूप से जोड़कर रूपांतरित किए जाते हैं।
- त्रिज्या परिमाण को कैप्चर करती है; कोण दिशात्मक (सिमेंटिक) जानकारी को एनकोड करते हैं।
- चूंकि कोणीय वितरण केंद्रित और पूर्वानुमेय होते हैं, महंगे प्रति,ब्लॉक सामान्यीकरण स्थिरांक समाप्त हो जाते हैं।
- बीटा वितरण के लिए MSE पर अनुकूलित लॉयड-मैक्स क्वांटाइज़र—प्रत्येक निर्देशांक को कम-बिट असतत मान (उदाहरण के लिए, मुख्य चरण के लिए कुल 3 बिट्स) में मैप करता है।

यह चरण अधिकांश संपीड़न (बिट्स का बहुमत) प्रदान करता है, जबकि लगभग पूरे वेक्टर की जानकारी को संरक्षित करता है।

चरण 2: QJL रेसिडुअल करेक्शन

पोलरक्वांट के बाद एक छोटी रेसिडुअल त्रुटि बची रहती है। टर्बोक्वांट क्वांटाइज़्ड जॉनसन/लिंडनस्ट्रॉस (QJL) ट्रांसफॉर्म लागू करता है जो केवल प्रति वेक्टर 1 बिट (+1 या -1 चिह्न) का उपयोग करता है। यह मेमोरी ओवरहेड बढ़ाए बिना इनर-प्रॉडक्ट बायस को सही करता है।

परिणाम: पुनर्निर्मित वेक्टर मूल के साथ लगभग परिपूर्ण कोसाइन समानता और इनर-प्रॉडक्ट सहसंबंध (समुदाय परीक्षणों में 3 बिट्स पर 0.983+) प्राप्त करते हैं।

पूरी प्रक्रिया एक्सेलेरेटर-अनुकूल है, जिसमें फ्यूज्ड ट्राइटन कर्नल संकुचित सूचकांकों से ध्यान लॉगिट्स की प्रत्यक्ष गणना सक्षम करते हैं—इनफेरेंस के दौरान पूर्ण डीक्वांटिज़ेशन की आवश्यकता नहीं होती।

बेंचमार्क और वास्तविक दुनिया का प्रदर्शन

स्वतंत्र बेंचमार्क और Google की आंतरिक मूल्यांकन रिपोर्ट असाधारण परिणामों की पुष्टि करते हैं:

मेमोरी: 3-बिट KV कैश, 16-बिट बेसलाइन की तुलना में ~6 गुना कमी प्रदान करता है; 4-बिट वेरिएंट कुछ वर्कलोड में 8 गुना प्रभावी लाभ प्राप्त करते हैं।
गति: H100 GPU पर अनक्वांटाइज़्ड 32-बिट कुंजियों की तुलना में, 4+बिट TurboQuant 8 गुना तक तेज ध्यान गणना देता है।
सटीकता: 8k–64k संदर्भों में नीडल-इन-ए-हेस्टैक पर पूर्ण रिकॉल। जेमा, मिस्ट्रल, और Qwen3.5 जैसे मॉडलों के लिए LongBench, ZeroSCROLLS, RULER, और L-Eval पर शून्य गिरावट।
कम्युनिटी टेस्ट (उदाहरण: RTX 4090 पर Gemma-3-4B):
- 2-बिट फ्यूज़्ड कर्नल: fp16 बेसलाइन के समान आउटपुट, KV कैश 26 MB से घटकर 7 MB हो गया।
- एंड,टू-एंड थ्रूपुट बेसलाइन से मेल खाता है या उसे पार करता है, जबकि 70%+ कम VRAM का उपयोग करता है।

GloVe (d=200) पर वेक्टर खोज मूल्यांकन छोटे कोडबुक और बिना डेटासेट ट्यूनिंग के होने के बावजूद, प्रोडक्ट क्वांटाइज़ेशन (PQ) और RabbiQ की तुलना में बेहतर टॉप-के रिकॉल दिखाता है।

TurboQuant को कैसे लागू करें: चरण-दर1चरण मार्गदर्शिका

Google ने आधिकारिक प्रोडक्शन कोड जारी नहीं किया है, लेकिन ओपन-सोर्स कम्युनिटी ने घोषणा के कुछ दिनों के भीतर कार्यशील कार्यान्वयन प्रदान किए हैं। यहां बताया गया है कि आज ही कैसे शुरू करें।

1. PyTorch के साथ त्वरित प्रारंभ (अनुसंधान/प्रोटोटाइपिंग)

tonbistudio/turboquant-pytorch पर खरोंच से कार्यान्वयन का उपयोग करें:

रेपो को क्लोन करें और निर्भरताएं (PyTorch + Triton) स्थापित करें।
अपने मॉडल की छिपी हुई आयाम और लक्ष्य बिट-चौड़ाई के लिए Lloyd-Max कोडबुक पहले से गणना करें।
हर cache.update() कॉल पर क्वांटाइज़ करने के लिए Hugging Face DynamicCache को पैच करें।
डेमो स्क्रिप्ट चलाएं: python run_demo.py --fused --bits 3 Gemma-3-4B या इसी तरह के लिए।

फ्यूज़्ड Triton कर्नल क्वेरीज़ को एक बार प्री-रोटेट करते हैं और सीधे uint8 इंडिसेज़ से डॉट प्रोडक्ट्स की गणना करते हैं, जो 1.2x+ एंड-टू-एंड स्पीडअप देते हैं।

2. vLLM के साथ प्रोडक्शन सर्विंग

फोर्क किए गए vLLM इंटीग्रेशन (जैसे mitkox/vllm-turboquant या flash7777/vllm turboquant ब्रांच):

कस्टम vLLM बिल्ड इंस्टॉल करें।
इंजिन आर्गुमेंट्स में TurboQuant सक्षम करें (2–4 बिट कुंजी/मान समर्थित)।
अपने मौजूदा OpenAI-संगत सर्वर के साथ तैनात करें—मॉडल परिवर्तन की आवश्यकता नहीं है।
लॉन्ग-कॉन्टेक्स्ट वर्कलोड के लिए तत्काल KV कैश बचत और उच्च थ्रूपुट की उम्मीद करें।

3. Apple Silicon पर स्थानीय अनुमान (MLX)

MLX-नेटिव पोर्ट (जैसे helgklaizar/turboquant_mlx) M-सीरीज़ Mac पर TurboQuant सक्षम करते हैं:

pip install mlx-turboquant (कम्युनिटी पैकेज उपलब्ध)।
MLX के माध्यम से मॉडल लोड करें और कैश रैपर लागू करें।
32k+ संदर्भों के साथ डिवाइस-पर प्रयोग के लिए आदर्श।

4. llama.cpp एकीकरण (CPU/GPU)

प्रायोगिक शाखाएँ (TheTom/llama-cpp-turboquant) GGUF-संगत मॉडलों के लिए सक्रिय अनुकूलन के तहत हैं।

पेशेवर सुझाव:

शून्य गुणवत्ता हानि के लिए 3. या 4-बिट से शुरुआत करें।
अधिकतम दक्षता के लिए फ्यूज़्ड कर्नेल में पूर्व-रोटेटेड क्वेरी पथों का उपयोग करें। . पहले नीडल-इन-ए-हेस्टैक पर परीक्षण करके विश्वसनीयता सत्यापित करें।
nvidia-smi जैसे टूल के साथ VRAM पर नज़र रखें—4–7x प्रभावी संदर्भ स्केलिंग की अपेक्षा रखें।

vLLM, TensorRT-LLM, और llama.cpp में मुख्यधारा समर्थन सप्ताहों के भीतर अपेक्षित है क्योंकि अनुकूलन परिपक्व होते हैं।

पारंपरिक क्वांटिज़ेशन विधियों बनाम टर्बोक्वांट

पारंपरिक दृष्टिकोण (जैसे, GPTQ, AWQ, या मूल int4) प्रति-ग्रुप स्केल और कैलिब्रेशन पर निर्भर करते हैं, जो अक्सर प्रति मूल्य 1–2 बिट्स ओवरहेड लाते हैं और लंबे-संदर्भ प्रदर्शन को घटाते हैं। प्रॉडक्ट क्वांटिज़ेशन को बड़े, डेटासेट-Lविशिष्ट कोडबुक और ऑफलाइन ट्यूनिंग की आवश्यकता होती है।

टर्बोक्वांट अलग खड़ा है:

शून्य ओवरहेड: कोई संग्रहीत स्थिरांक या प्रति–ब्लॉक मेटाडेटा नहीं। .
डेटा-अनजान: किसी भी मॉडल पर तुरंत काम करता है।
निकट-इष्टतम विरूपण: एमएसई और आंतरिक उत्पादों दोनों के लिए गणितीय रूप से सिद्ध।
ऑनलाइन-अनुकूल: नगण्य विलंबता के साथ अनुमान के दौरान चलता है।

सामुदायिक कार्यान्वयन प्रदर्शित करते हैं कि यहाँ तक कि आक्रामक 2-बिट टर्बोक्वांट भी पूर्ण-परिशुद्धता आउटपुट गुणवत्ता से मेल खा सकता है जहाँ मानक 4-बिट विधियाँ विफल होती हैं।

अनुप्रयोग और भविष्य का प्रभाव

टर्बोक्वांट खोलता है: |

Share this article

X Facebook LinkedIn Reddit Hacker News

Continue Reading

More articles connected to the same themes, protocols, and tools.

View all posts

Google, 5GW कंप्यूटिंग सहायता के साथ Anthropic में 40 अरब डॉलर तक का निवेश करता है: AI हथियारों की दौड़ नए युग में प्रवेश करती है

GPT Image 2 vs NanoBanana 2: 2026 AI इमेज जनरेटर प्रतिद्वंद्विता

OpenAI GPT-5.5 प्रॉम्प्ट गाइड: क्रमिक ट्यूटोरियल

Referenced Tools

Browse entries that are adjacent to the topics covered in this article.

Explore directory

वर्कस्पेस एजेंट्स

AI Agents

ChatGPT में टीमों के लिए Codex-संचालित साझा AI एजेंट। Slack, Google Drive और CRM जैसे टूल्स में जटिल, लंबे समय तक चलने वाले वर्कफ़्लो को स्वचालित करें—क्लाउड में चलते हुए और उद्यम-स्तरीय नियंत्रणों के साथ।

Google Sheets MCP

MCP Servers

Google Sheets MCP एक Python-आधारित MCP सर्वर है जो AI एजेंट और LLM (जैसे Claude Desktop) को Google Sheets API से जोड़ता है, जिससे आपके AI वर्कफ़्लो से सीधे स्प्रेडशीट का प्राकृतिक भाषा में निर्माण, पठन, अद्यतन और प्रबंधन संभव होता है।

Codex MCP सर्वर

MCP Servers

एक MCP सर्वर रैपर जो Claude (और अन्य MCP क्लाइंट्स) को OpenAI के Codex CLI से जोड़ता है, जिससे आप अपने पसंदीदा AI कोडिंग वातावरण से सीधे GPT-संचालित कोड जनरेशन, विश्लेषण, रीफैक्टरिंग और एक्सीक्यूशन का उपयोग कर सकते हैं।

LottieFiles MCP Server

MCP Servers

एक ओपन-सोर्स मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP) सर्वर जो AI एजेंट्स को सीधे LottieFiles से लोट्टी एनिमेशन्स खोजने, विवरण प्राप्त करने और पॉपुलर एनिमेशन तक पहुँचने में सक्षम बनाता है, मोशन ग्राफिक्स को AI वर्कफ़्लो में सहजता से एकीकृत करता है।

Kakao PlayMCP

MCP Servers

काकाओ की आधिकारिक ओपन प्लेटफ़ॉर्म फ़ॉर मॉडल कॉन्टेक्स्ट प्रोटोकॉल (MCP), जो डेवलपर्स को MCP सर्वर्स को पंजीकृत करने, खोजने, परीक्षण करने और उपयोग करने में सक्षम बनाती है, ताकि AI मॉडल्स को बाहरी टूल्स और डेटा स्रोतों से सुरक्षित रूप से जोड़कर एजेंटिक AI अनुभव प्रदान किए जा सकें।

Workspace Agents

AI Agents

Codex-powered shared AI agents in ChatGPT for teams. Automate complex, long-running workflows across tools like Slack, Google Drive, and CRM—running in the cloud with enterprise controls.