ما هو Flash-MoE؟ تشغيل نماذج الذكاء الاصطناعي ذات 397 مليار معلمة على جهاز كمبيوتر محمول

النقاط الرئيسية
- Flash-MoE هو محرك استدلال خفيف الوزن، مكتوب بلغة C/Metal النقية، يشغل نموذج Qwen3.5-397B-A17B الكامل لـ Mixture-of-Experts (MoE) والذي يحتوي على 397 مليار معلمة — مع تفعيل 17 مليار معلمة فقط لكل رمز — على جهاز MacBook Pro مزود بذاكرة موحدة بسعة 48 جيجابايت بسرعة 4.4+ رمز في الثانية.
- يتم تحميل النموذج المضغوط بأربعة بتات (والذي يبلغ حجمه 209 جيجابايت) مباشرة من SSD عند الطلب؛ حيث يتم تحميل 4 خبراء مفعلين فقط لكل طبقة، مما يحافظ على مساحة ذاكرة الوصول العشوائي تحت 6 جيجابايت مع الاستفادة من ذاكرة التخزين المؤقت للنظام في macOS لتحقيق معدل ضربات يصل إلى 71%.
- تشير المعايير إلى تسريع يصل إلى 12% من خلال نواة إزالة الضغط المحسنة بـ FMA والحوسبة المؤجلة على وحدة معالجة الرسومات، متجاوزةً نهج التفريغ التقليدية مع تقديم مخرجات بجودة إنتاجية، بما في ذلك وظائف الاستدعاء الكاملة للأدوات.
- يُظهر التحليل أن Flash-MoE يبني على مبدأ "الندرة" في MoE ومبادئ Apple لـ "LLM في ومضة"، ولكنه يعمل على توسيعها لتشمل نماذج بحجم 400 مليار معلمة من خلال ظلال Metal المضبوطة يدويًا، وخط الأنابيب التسلسلي لوحدة معالجة الرسومات/SSD، وصفر تكلفة إضافية للتخزين المؤقت المخصص.
- تشير ردود الفعل المجتمعية إلى أن هذا النهج يجعل نماذج MoE المتطورة في متناول المطورين الأفراد، مما يخفض تكاليف البنية التحتية بشكل كبير ويمكن الذكاء الاصطناعي العامل محليًا حقًا.
فهم Mixture-of-Experts (MoE) وأهميته
تتعامل معماريات Mixture-of-Experts مع حدود القياس لنماذج المحولات الكثيفة من خلال تفعيل مجموعة فرعية صغيرة فقط من المعلمات لكل رمز. في نموذج Qwen3.5-397B-A17B، هذا يعني 397 مليار معلمة إجمالية ولكن فقط 17 مليار معلمة مفعلة لكل تمريرة للأمام عبر موجه يختار 4 خبراء موجهين + 1 خبير مشترك من أصل 512 لكل طبقة.
تؤكد معايير Alibaba أن هذا التصميم الهجين — الذي يجمع بين Gated DeltaNet (انتباه خطي) في 45 طبقة مع الانتباه الكامل في 15 طبقة — يوفر أحدث أداء في التفكير والبرمجة وتعدد الوسائط مع الحفاظ على استدلال حسابي شبه خطي. ومع ذلك، فإن الحجم الهائل للنموذج (مئات الجيجابايت حتى مضغوطًا) حصر تاريخيًا مثل هذه النماذج في مجموعات متعددة لوحدات معالجة الرسومات أو واجهات برمجة تطبيقات السحابية.
يغير Flash-MoE هذه المعادلة من خلال استغلال الندرة الكامنة في MoE: معظم الخبراء يبقون غير مفعلين، مما يسمح بالتحميل عند الطلب بدلاً من الإقامة الكاملة للنموذج في الذاكرة.
التحدي المادي لاستدلال MoE الضخم
تكافح محركات استدلال MoE التقليدية (مثل vLLM، DeepSpeed، أو حتى MLX على Apple Silicon) مع نطاق الذاكرة وعمليات الإدخال/الإخراج عندما تتجاوز النماذج سعة ذاكرة الوصول العشوائي. بالنسبة لنموذج مضغوط بأربعة بتات بحجم 209 جيجابايت:
- يتطلب التحميل الكامل ذاكرة موحدة بسعة 200+ جيجابايت.
- يؤدي التفريغ الساذج على SSD إلى إدخال كوارث تأخير من الوصول العشوائي للخبراء.
- يؤدي ضغط ذاكرة وحدة معالجة الرسومات من الذاكرة المؤقتة المخصصة إلى تدهور الأداء بشكل أكبر.
يُظهر التحليل أن الحلول السابقة للأجهزة الطرفية، مثل التفريغ على ذاكرة DRAM فقط، تصبح غير عملية لما بعد ~100 مليار معلمة. يحل Flash-MoE هذه المشكلة من خلال فلسفة جذرية "الثقة في نظام التشغيل"، حيث يعامل ذاكرة التخزين المؤقت لنظام macOS كمدير للخبراء ويلغي Python، والأطر البرمجية، وطبقات LRU المخصصة تمامًا.
ما هو فلاش-مواي بالضبط؟
فلاش-مواي هو محرك استنتاج مفتوح المصدر، مكتوب بـ C/Metal خالص، تم تطويره لتشغيل نموذج Qwen3.5-397B-A17B الكامل على أجهزة Apple Silicon الاستهلاكية. أُطلق المشروع في مارس 2026، ويُظهر أن نموذج مواي بحجم 397 مليار معامل يمكنه تقديم أداء من مستوى الإنتاج — بما في ذلك JSON منظم، واستدعاء الأدوات، والاستدلال السياقي الطويل — مباشرةً على جهاز لابتوب.
المواصفات الرئيسية:
النموذج: Qwen3.5-397B-A17B (397 مليار معامل إجماليًا / 17 مليار معامل نشط، 60 طبقة، 512 خبير لكل طبقة، سياق أصلي 262 ألف رمز)
التكميم: 4 بت للإنتاج (209 جيجابايت على القرص) أو 2 بت تجريبي (120 جيجابايت)
الجهاز المستهدف: MacBook Pro M3 Max (48 جيجابايت ذاكرة موحدة، 1 تيرابايت SSD بسرعة 17.5 جيجابايت/ثانية)
السرعة: 4.36 رمز/ثانية (بتكميم 4 بت، نواة FMA)، تصل إلى 7.05 رمز/ثانية (بتكميم 2 بت مع ذاكرة مخبأة دافئة)
البصمة: ~5.5–6 جيجابايت ذاكرة وصول عشوائي نشطة؛ أوزان غير الخبراء محملة بالذاكرة المشتركة، والخبراء يتم دفقهم
على عكس أنظمة التشغيل الثقيلة بالأطر البرمجية، فإن فلاش. مواي يُترجم إلى ثنائي أصلي واحد مع برامج معالجة حوسبة Metal مكتوبة يدويًا (~1,200 سطر) ونواة استدلال بـ C بحوالي ~7,000 سطر.
نظرة فنية عميقة: التحسينات الأساسية التي تدفع فلاش-مواي
1. دفق الخبراء من محركات الأقراص ذات الحالة الصلبة باستخدام ذاكرة التخزين المؤقت للصفحات في macOS
فقط الخبراء النشطون الأربعة (~6.75 ميجابايت لكل منهم) لكل طبقة يتم تحميلهم عبر مكالمات pread() متوازية باستخدام Grand Central Dispatch. النموذج الكامل البالغ 209 جيجابايت يبقى على محرك الأقراص ذي الحالة الصلبة؛ ذاكرة التخزين المؤقت للصفحات في macOS تتعامل مع التواجد في الذاكرة تلقائيًا، محققة معدل إصابة طبيعي بنسبة 71% بدون أي كود مخصص.
هذا النهج يتفوق على ذواكر LRU المعدة يدويًا بـ Metal أو عمليات التخصيص وفك ضغط LZ4، التي كانت تسبب ضغطًا على ذاكرة GPU وزمن انتقال إضافيًا. خط الأنابيب التسلسلي GPU ← SSD ← GPU يتوافق تمامًا مع وحدة التحكم في الذاكرة المشتركة لـ Apple Silicon، متجنبًا التنازع على DMA.
2. برامج المعالجة لإزالة التكميم مُحسّنة بـ FMA
حصلنا على زيادة سرعة حرجة بنسبة 12% من إعادة كتابة عملية إزالة التكميم:
// قبل (بدائية)
float x = nibble * scale + bias;
// بعد (محسّنة بـ FMA)
fma(nibble, precomputed_scale_x, precomputed_bias_x);
من خلال حساب scale * x و bias * x مسبقًا، يدمج البرنامج المعالج عملية إزالة التكميم + الضرب-الإضافة في تعليمة FMA واحدة منصهرة، مشبعة وحدات FMA في معالج الرسوميات بمعدل ~418 جيجابايت/ثانية.
58 تجربة موثقة في المستودع تتحقق من هذا عبر مستويات التكميم وأحجام الدُفعات.
3. برامج المعالجة الحاسوبية المعدلة يدويًا بـ Metal
برامج المعالجة المخصصة تدمج كل عملية:
ضرب مصفوفة-متجه ببلاطات 4 بت / 2 بت مع اختصار SIMD وذاكرة تخزين مؤقت للمدخلات المشتركة
تفعيل SwiGLU منصهر
RMSNorm ذو مرحلتين (مجموع المربعات + تطبيق)
RoPE أصلي لمعالج الرسوميات مع فصل تسلسل Q
انتباه مجمّع للطبقات ذات الانتباه الكامل
دمج مواي + المتبقي + بوابة السيجمويد في مرحلة واحدة
إن إرسال مخزن الأوامر المؤجل (CMD3) يسمح بحساب خبراء معالج الرسوميات بالتداخل مع التوجيه بواسطة CPU وإعداد الطبقة التالية، مما يلغي رحلات الذهاب والإياب للـ CPU.
4. Accelerate BLAS للطبقات ذات شبكة دلتا المؤدلجة
طبقات الانتباه الخطي البالغ عددها 45 تستفيد من دوال cblas_sscal و cblas_sgemv و cblas_sger الخاصة بـ Apple لتحديث مصفوفة الحالة ذات 64 رأسًا — أسرع بنسبة 64% من الحلقات القياسية.
5. تصميم آمن للذاكرة
- أوزان غير-خبيرة: 5.5 جيجابايت مُمَابَّد (للقراءة فقط)
- مخازن مؤقتة معدنية (Metal): ~200 ميجابايت
- إجمالي البصمة النشطة: ~6 جيجابايت
- خطر نفاد الذاكرة (OOM) صفر حتى على أنظمة 48 جيجابايت
معايير الأداء والنتائج العملية
| الإعداد | الرموز/الثانية | الجودة | حجم القرص | ملاحظات |
|---|---|---|---|---|
| 4 بت + نواة FMA | 4.36 | ممتاز | 209 جيجابايت | للإنتاج؛ استدعاء كامل للأدوات |
| خط الأساس 4 بت | 3.90 | ممتاز | 209 جيجابايت | قبل تحسين FMA |
| 2 بت + نظام تشغيل موثوق | 5.74 | جيد* | 120 جيجابايت | *JSON/استدعاء أدوات غير مستقر |
| ذروة 2 بت (ذاكرة مخبأة دافئة) | 7.05 | جيد* | 120 جيجابايت | اندفاع رمز مفرد |
يبلغ متوسط توقيت كل طبقة 4.28 مللي ثانية (4 بت)، ويهيمن عليه مدخلات/مخرجات SSD (2.41 مللي ثانية) ولكنه متداخل تمامًا مع عمل وحدة معالجة الرسومات (GPU). تبلغ اختبارات المجتمع على M3 Max عن 4+ رموز/الثانية باستمرار حتى مع سياق 128 ألف+.
مقارنات مع المحركات الحالية:
- MLX / llama.cpp MoE تفريغ: كُتلة أعلى وجودة أقل بسبب عبء Python ودمج أقل عدوانية.
- vLLM / DeepSpeed على مجموعات GPU: تكلفة أعلى بمقدار أس طلبات؛ يحقق Flash-MoE جودة مماثلة باستخدام طاقة الحاسوب المحمول.
- مُفَرِّغو SSD الأكاديميين: يتفوق نهج Flash-MoE "نظام التشغيل الموثوق" على ذاكرات التخزين المؤقت LRU/LFU بـ 2.6× في اختبارات الأجهزة الحقيقية (كما تم التحقق منه في أبحاث MoE الحافة ذات الصلة).
ابتكارات FlashMoE ذات الصلة في البحث
يظهر مصطلح "FlashMoE" أيضًا في عملين أكاديميين نُشرا في نفس الفترة تقريبًا:
- FlashMoE: MoE الموزع السريع في نواة واحدة (NeurIPS 2025) يدمج حساب الخبير والاتصال بين وحدات معالجة الرسومات في نواة دائمة واحدة، مما يوفر حتى 9× استغلال لوحدة معالجة الرسومات و 5.7× إنتاجية على عقد 8×H100.
- FlashMoE: تقليل اختناقات مدخلات/مخرجات SSD عبر استبدال ذاكرة التخزين المؤقت القائمة على التعلم الآلي (arXiv يناير 2026) يُقدِّم تخزينًا مؤقتًا تكيفيًا للحداثة-التكرار للأجهزة الطرفية، مما يحسن معدلات الضربات بنسبة 51% على السياسات التقليدية.
على الرغم من كونها تطبيقات متميزة، إلا أن جميعها تشترك في البادئة "Flash" للتأكيد على تنفيذ MoE ذي الكُمتة المنخفضة والمُصمم بالتعاون مع العتاد. يتميز محرك الحاسوب المحمول بإمكانية الوصول إليه للمستهلكين وتصميمه الخالي من التبعيات.
الآثار المترتبة على الذكاء الاصطناعي على الجهاز والوكيل الذكي
يُثبت فلاش-موي أن تباعد موي + هندسة أنظمة عدوانية يمكنها نقل ذكاء فئة تريليون المعامل إلى أجهزة اللابتوب. يمكن للمطورين الآن تشغيل وكلاء استدعاء أدوات كاملة، وRAG سياق طويل، وسير عمل متعددة الوسائط بالكامل دون اتصال.
رؤى قابلة للتنفيذ:
- متطلبات الأجهزة: سيليكون أبل مع محرك أقراص NVMe سريع (يوصى بحد أدنى 1 تيرابايت) وذاكرة موحدة 32 جيجابايت+ لأداء مريح.
- مقايضات التكميم: التزم بـ4 بت للموثوقية؛ 2 بت يوفر السرعة ولكنه يتطلب هندسة المطالبات للتخفيف من آثار المخرجات.
- امتدادات مستقبلية: تصميم معدل التظليل المعياري يدعو المجتمع لنقل نماذج موي أخرى (DeepSeek-V3، مشتقات Mixtral) وأجيال سيليكون أبل إضافية.
هذه الديمقراطية تقلل الاعتماد على واجهات برمجة التطبيقات السحابية، وتخفض تكاليف الاستدلال إلى ما يقارب الصفر، وتسّرع التجربة في المجالات الحساسة للخصوصية.
الخلاصة
يمثل فلاش-موي تحولًا محوريًا في إمكانية الوصول للذكاء الاصطناعي: نماذج موي على مستوى الطليعة لم تعد تحتاج إلى بنية تحتية لمراكز البيانات. بدمج تباعد موي، بث SSD، وتحسينات محددة لميتال، يقدم أداءً جاهزًا للإنتاج على الأجهزة اليومية.
الكود المصدري الكامل، نصوص تحويل الأوزان، وسجلات تجارب 90+ متاحة على GitHub في danveloper/flash-moe. استنسخ المستودع، وقم بتجميع ثنائي الاستدلال ميتال، واختبر ذكاء 397 مليار معامل يعمل محليًا اليوم. عصر ذكاء اصطناعي طليعي بحجم اللابتوب قد وصل — ابدأ البناء.