什麼是 MiniCPM？適用於端點裝置人工智慧的開源多模態大型語言模型系列（MiniCPM-V、MiniCPM-o）

關鍵要點

MiniCPM 是由 OpenBMB（清華大學NLP與ModelBest團隊）開發的一系列高效能開源小型語言模型（SLMs）和多模態大型語言模型（MLLMs）。
最新的 MiniCPM-V 4.5（80億參數）和 MiniCPM-o 4.5（90億參數）在多個評測基準（如OpenCompass）上達到了最先進的視覺語言性能，其表現經常超越GPT-4o-latest、Gemini 2.0 Pro以及像Qwen2.5-VL 720億這類規模大得多的模型。
專為端側部署設計：可高效運行於智慧型手機、Mac電腦和邊緣硬體上，透過llama.cpp、Ollama等優化框架實現低記憶體占用與快速推論。
MiniCPM-o 增加了全雙工多模態串流能力——支援實時同步的輸入（影片 + 音訊）與輸出（文字 + 語音），並具備主動互動功能。
關鍵創新包括Warmup-Stable-Decay（WSD）學習率調度、高效的影片/影像編碼統一3D-Resampler、混合推理模式，以及強大的多語言/光學字元辨識支援。

MiniCPM 指的是一系列緊湊而強大的開源模型，專注於端側（裝置上）部署。不同於那些僅能在雲端運行的龐大模型，MiniCPM 優先考量效率、低資源消耗與本地隱私保護，同時提供具競爭力甚至更優異的性能。

該專案始於僅處理文字的 MiniCPM（12億至24億非嵌入參數），其證明了透過先進的訓練策略，小型模型也能達到70億至130億參數模型的性能水準。隨後，它擴展到多模態領域，推出了 MiniCPM-V（視覺）和 MiniCPM-o（全能/多模態，含語音功能）。

截至2026年，其旗艦模型為：

這些模型可在消費級裝置上本地運行，無需持續依賴雲端，從而實現私密、低延遲的人工智慧體驗。

MiniCPM 透過多項技術革新脫穎而出：

可擴展訓練策略：早期版本採用大規模「模型風洞」實驗與 Warmup-Stable-Decay（WSD）學習率調度器。此方法能建立更優的數據-模型縮放規律，在持續訓練與領域適配中常超越傳統 Chinchilla 最優比例。
高效多模態融合：MiniCPM-V 4.5 引入 統一的 3D-Resampler，能以 96× 比例壓縮視訊 token 同時保留時空資訊，大幅降低記憶體消耗與推理時間。
混合推理模式：單一模型支援快速（短）與深度（長）兩種思考模式，兼顧速度與複雜問題解決能力。
全雙工串流（MiniCPM-o）：輸出串流（語音/文字）與輸入串流（視訊/音訊）運作互不阻塞，實現自然的即時對話、主動提醒與語音克隆功能。
高解析度處理能力：可處理任意長寬比、高達 180 萬像素的圖像，並在 30+ 種語言中提供頂尖的 OCR 表現。

相較於體量更大的競爭模型，這些優化使 MiniCPM 在保持或超越性能的同時，顯著減少了 GPU 記憶體佔用與推理時間。

基準測試顯示 MiniCPM 系列模型表現遠超其參數規模：

在 OpenCompass（綜合視覺):語言評估）中，MiniCPM-V 4.5 得分約 77.0–77.6，超越 GPT-4o-latest、Gemini 2.0 Pro 與 Qwen2.5-VL 72B，儘管其參數量遠低於這些模型。
VideoMME 與串流基準測試顯示，MiniCPM-o 僅需大型模型推理成本的一小部分（例如對比同級系統的 8.7%–42.9% 時間/記憶體），即能取得優異結果。
純文字版本如 MiniCPM3-4B 與 MiniCPM4 系列，在推理與通用能力上常能媲美甚至超越 Phi-3.5-mini、Llama 3.1 8B 與 Qwen2-7B。
效率優勢顯著：MiniCPM-V 4.5 僅使用 28G 記憶體即達到具競爭力的 VideoMME 性能，且推理時間遠低於先前最先進的 MLLMs。

社群回饋與獨立評估一致指出，MiniCPM 在裝置端場景中具有明顯優勢——尤其在延遲、電池續航與隱私保護至關重要的情境下。

MiniCPM 的高效率使其成為以下領域的理想選擇：

開發者已將其應用於智慧型照片/影片應用程式、結合視覺情境的即時翻譯、視障輔助工具，以及離線多模態代理程式。

儘管功能強大，使用者應注意：

量化技術的權衡取捨：激進的量化（例如 Q4）雖能實現手機部署，但可能略微降低複雜推理的品質。建議根據使用情境測試多種精度等級。
上下文與標記長度限制：儘管效率極高，影片處理仍可受益於智慧幀率採樣與 3D-Resampler 技術。
推論框架選擇：針對 MiniCPM-o，llama.cpp-omni 與優化的 WebRTC 示範程式能提供最佳的即時體驗；標準的 Hugging Face 可能需要額外調校以提升速度。
多語言優勢：在英語和中文表現卓越；低資源語言的效能可能有所差異——微調或提示詞工程可協助改善。

進階技巧：結合 MiniCPM 與稀疏注意力變體（例如 MiniCPM-S）或混合專家模型版本，可在特定領域進一步提升效率。於生產環境中，利用官方指南與社群分支版本以實現 Android/iOS 的最佳化部署。

MiniCPM 證明了緊湊、開源的模型能夠在日常裝置上提供尖端的多模態能力，代表著在普及先進 AI 技術方面邁出了重要一步。透過 MiniCPM-V 4.5 與 MiniCPM-o 4.5，開發者與使用者得以存取 GPT-4o 等級的視覺、影片與語音智能，無需依賴昂貴的雲端 API 或犧牲隱私。

無論是打造新一代行動 AI 應用程式、隱私優先工具，還是高效邊緣解決方案，MiniCPM 在效能、效率與可近性之間提供了引人注目的平衡點。

歡迎探索 GitHub 上的官方儲存庫（OpenBMB/MiniCPM-V 與 OpenBMB/MiniCPM-o），嘗試使用 Ollama 或 llama.cpp，並加入不斷成長的社群，共同推動裝置端多模態 AI 在 2026 年及未來的發展。