Back to Blog
BlogApril 1, 20262

ما هو MiniCPM؟ نموذج اللغوي متعدد الوسائط مفتوح المصدر الصغير الذي يعمل بمستوى الذكاء الاصطناعي GPT-4o على هاتفك

ما هو MiniCPM؟ نموذج اللغوي متعدد الوسائط مفتوح المصدر الصغير الذي يعمل بمستوى الذكاء الاصطناعي GPT-4o على هاتفك

النقاط الرئيسية

  • MiniCPM هي عائلة من نماذج اللغة الصغيرة مفتوحة المصدر (SLMs) و نماذج اللغة متعددة الوسائط الكبيرة (MLLMs) عالية الكفاءة، تم تطويرها بواسطة OpenBMB (TsinghuaNLP و ModelBest).
  • أحدث إصدارات MiniCPM-V 4.5 (8 مليارات معامل) و MiniCPM-o 4.5 (9 مليارات معامل) تحقق أحدث مستوى للأداء في الرؤية واللغة، وغالباً ما تتجاوز أداء GPT-4o-latest و Gemini 2.0 Pro، بالإضافة إلى نماذج أكبر بكثير مثل Qwen2.5-VL 72B في مقاييس الأداء مثل OpenCompass.
  • مصممة للنشر على الجهاز: تعمل بكفاءة على الهواتف الذكية وأجهزة Mac والأجهزة الطرفية مع ذاكرة منخفضة واستدلال سريع عبر llama.cpp و Ollama والأطر المحسنة.
  • يضيف MiniCPM-o بثاً حياً متعدد الوسائط ثنائي الاتجاه كاملاً — إدخال في الوقت الحقيقي متزامن (فيديو + صوت) وإخراج (نص + كلام) مع قدرات تفاعل استباقية.
  • تشمل الابتكارات الرئيسية جدولة معدل التعلم Warmup-Stable-Decay (WSD)، ومشفر موحد ثلاثي الأبعاد 3D-Resampler لترميز الفيديو/الصورة بكفاءة، وأنماط استدلال هجينة، ودعم قوي متعدد اللغات و للتعرف الضوئي على الحروف (OCR).

ما هو MiniCPM؟

يشير MiniCPM إلى سلسلة من النماذج المدمجة والقوية مفتوحة المصدر تركز على النشر على جانب النهاية (على الجهاز). على عكس النماذج الضخمة التي تعمل فقط على السحابة، تعطي MiniCPM الأولوية للكفاءة واستهلاك الموارد المنخفض والخصوصية المحلية مع تقديم أداء تنافسي أو متفوق.

نشأ المشروع مع MiniCPM للنص فقط (1.2–2.4 مليار معامل غير تضمين)، والذي أظهر أن النماذج الصغيرة يمكن أن تتطابق مع نماذج 7–13 مليار معامل من خلال استراتيجيات تدريب متقدمة. ثم توسع لاحقاً إلى مجال الوسائط المتعددة مع MiniCPM-V (الرؤية) و MiniCPM-o (متعدد الوسائط مع الكلام).

حتى عام 2026، النماذج الرئيسية هي: . MiniCPM-V 4.5: 8 مليارات معامل (Qwen3-8B + SigLIP21-400M)، متميزة في فهم الصور والصور المتعددة والفيديو عالي الإطارات. . MiniCPM-o 4.5: 9 مليارات معامل، نموذج شاملة تدعم مدخلات الصورة والفيديو والنص والصوت مع مخرجات نص + كلام.

تعمل هذه النماذج محلياً على أجهزة المستهلك، مما يتيح تجارب ذكاء اصطناعي خاصة وذات كُمون منخفض دون الاعتماد المستمر على السحابة.

البنية الأساسية والابتكارات

يتميز MiniCPM بعدة تطورات تقنية:

  • استراتيجيات التدريب القابلة للتوسع: استخدمت الإصدارات الأولى تجارب مكثفة لـ "نفق الرياح للنماذج" وجدولة معدل التعلم Warmup-Stable-Decay (WSD). وهذا يتيح قوانين قياس أفضل للبيانات والنماذج، وغالبًا ما تتجاوز نسب Chinchilla المثالية التقليدية للتدريب المستمر والتكيف مع المجالات.
  • دمج متعدد الوسائط بكفاءة: يقدم MiniCPM-V 4.5 معيد أخذ عينات ثلاثي الأبعاد موحد يضغط رموز الفيديو بنسبة 96× مع الحفاظ على المعلومات المكانية-الزمانية، مما يقلل بشكل كبير من الذاكرة ووقت الاستدلال.
  • أنواع التفكير الهجينة: يدعم كلاً من أوضاع التفكير السريع (القصير) والعميق (الطويل) في نموذج واحد، متوازنًا بين السرعة وحل المشكلات المعقدة.
  • بث تيار كامل الازدواج (MiniCPM-o): تعمل تيارات الإخراج (الكلام/النص) وتيارات الإدخال (الفيديو/الصوت) دون حظر بعضها البعض، مما يتيح محادثات طبيعية في الوقت الفعلي، وتذكيرات استباقية، واستنساخ الصوت.
  • التعامل مع الدقة العالية: يعالج الصور بأي نسبة عرض إلى ارتفاع تصل إلى 1.8 مليون بكسل ويقدم أحدث تقنيات التعرف الضوئي على الحروف عبر 30+ لغة.

تؤدي هذه التحسينات إلى نماذج تستخدم ذاكرة GPU ووقت استدلال أقل بكثير مقارنة بالمنافسين الأكبر مع الحفاظ على الأداء أو تجاوزه.

معايير الأداء والمقارنات

تشير المعايير إلى أن نماذج MiniCPM تتفوق بشكل كبير على فئتها:

  • في OpenCompass (تقييم شامل للرؤية واللغة)، يسجل MiniCPM-V 4.5 حوالي 77.0–77.6، متفوقًا على GPT-4o-latest وGemini 2.0 Pro وQwen2.5-VL 72B رغم امتلاكه معلمات أقل بكثير.
  • تظهر معايير VideoMME والبث أن MiniCPM-o يحقق نتائج قوية مع جزء بسيط فقط من تكلفة الاستدلال للنماذج الأكبر (مثل 8.7%–42.9% من وقت/ذاكرة الأنظمة المماثلة).
  • غالبًا ما تتطابق أو تتجاوز المتغيرات النصية البحتة مثل سلسلة MiniCPM3-4B وMiniCPM4 قدرات Phi-3.5-mini وLlama 3.1 8B وQwen2-7B في التفكير والقدرات العامة.
  • مكاسب الكفاءة ملحوظة: يقدم MiniCPM-V 4.5 أداءً منافسًا في VideoMME باستخدام 28G فقط من الذاكرة ووقت استدلال أقل بشكل كبير من أحدث نماذج MLLM السابقة.

يسلط تعليقات المجتمع والتقييمات المستقلة الضوء باستمرار على تميز MiniCPM في سيناريوهات على الجهاز، حيث تكون الكمون وعمر البطارية والخصوصية هي الأكثر أهمية.

حالات الاستخدام الرئيسية والتطبيقات

كفاءة MiniCPM تجعلها مثالية لـ:

  • مساعدات الذكاء الاصطناعي على الهاتف والحافة: رؤية في الوقت الفعلي، مسح المستندات، التعرف الضوئي على الحروف (OCR)، والتفاعل الصوتي مباشرةً على الهواتف الذكية.
  • فهم الفيديو: تحليل الفيديو بإطارات عالية في الثانية، التلخيص، واستيعاب البث المباشر.
  • البث المباشر متعدد الوسائط: محادثات ثنائية الاتجاه حيث يرى النموذج، ويستمع، ويتحدث، ويفكر في نفس الوقت (MiniCPM-o).
  • التطبيقات الحساسة للخصوصية: المعالجة المحلية للرعاية الصحية، المالية، أو البيانات الشخصية دون إرسال المعلومات إلى السحابة.
  • النمذجة الأولية السريعة والنشر: تكامل سهل عبر Hugging Face و Ollama و llama.cpp وعروض WebRTC التجريبية.

استخدمها المطورون لتطبيقات الصور/الفيديو الذكية، الترجمة في الوقت الفعلي مع السياق البصري، أدوات مساعدة للمكفوفين، ووكلاء متعددين الوسائط يعملون دون اتصال.

المزالق الشائعة والنصائح المتقدمة

على الرغم من قوتها، يجب على المستخدمين ملاحظة:

  • مقايضات التكميم: التكميم المكثف (مثل Q4) يتيح النشر على الهاتف ولكنه قد يقلل جودة الاستدلال المعقد قليلاً. اختبر مستويات دقة متعددة لحالة استخدامك.
  • حدود السياق والرموز: على الرغم من الكفاءة، لا يزال معالجة الفيديو يستفيد من أخذ العينات الذكية للإطارات ومسجل 3D-Resampler.
  • اختيار إطار الاستدلال: تقدم llama.cpp-omni وعروض WebRTC المحسنة أفضل تجربة في الوقت الفعلي لـ MiniCPM-o؛ قد يتطلب Hugging Face القياسي ضبطًا إضافيًا للسرعة.
  • نقاط القوة متعددة اللغات: متفوق في الإنجليزية والصينية؛ قد يختلف الأداء في اللغات قليلة الموارد — يساعد الضبط الدقيق أو هندسة التوجيه.

نصيحة متقدمة: اجمع MiniCPM مع متغيرات الانتباه المتناثر (مثل MiniCPM-S) أو إصدارات MoE لمزيد من مكاسب الكفاءة في المجالات المتخصصة. للإنتاج، استفد من الكتاب المرجعي الرسمي والأفرع المجتمعية للنشر المحسن على Android/iOS.

الخاتمة

تمثل MiniCPM خطوة مهمة نحو ديمقراطية الذكاء الاصطناعي المتقدم من خلال إثبات أن النماذج المدمجة والمفتوحة المصدر يمكنها تقديم قدرات متعددة الوسائط على مستوى الطليعة على الأجهزة اليومية. مع MiniCPM-V 4.5 و MiniCPM-o 4.5، يحصل المطورون والمستخدمون على وصول إلى ذكاء بصري وفيديو وكلام بمستوى GPT-4o دون الاعتماد على واجهات برمجة تطبيقات سحابية باهظة الثمن أو التضحية بالخصوصية.

سواء كنت تبني الجيل القادم من تطبيقات الذكاء الاصطناعي على الهاتف، أدوات تركز على الخصوصية أولاً، أو حلول حافة فعالة، تقدم MiniCPM توازنًا مقنعًا بين الأداء والكفاءة وإمكانية الوصول.

استكشف المستودعات الرسمية على GitHub (OpenBMB/MiniCPM-V و OpenBMB/MiniCPM-o)، جرب Ollama أو llama.cpp، وانضم إلى المجتمع المتنامي الذي يدفع الذكاء الاصطناعي متعدد الوسائط على الجهاز إلى الأمام في 2026 وما بعده.

Share this article