什麼是 LiteLLM？開源 LLM 閘道與代理，整合 140+ 提供商（2026 年指南）

主要要點

LiteLLM 是一個開源的 Python 函式庫和自我託管的 AI 網關/代理，它提供了一個與 OpenAI 相容的統一介面，可連接到 140 多個 LLM 供應商 及 2,500 多個模型，包括 OpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure、Mistral、Ollama、vLLM 以及像 Nebius AI 這樣的新興選擇。
它負責模型路由、成本追蹤、負載平衡、後備方案、快取、防護措施和可觀測性 — 同時消除了供應商專屬的程式碼。
分析顯示 LiteLLM 可將多供應商整合工作量減少 60-80%，並在生產部署中處理了超過 10 億個請求，Docker 拉取次數超過 2.4 億次。
該專案提供輕量級的 Python SDK 供程式碼層級使用，以及功能完整的 代理伺服器，附帶管理員 UI、虛擬金鑰、預算和企業治理功能（商業授權提供 SSO/RBAC）。
截至 2026 年 3 月，LiteLLM 保持約 40k GitHub stars 和 1,300 多名貢獻者，模型更新迅速（例如 v1.82.3 版本中的 GPT-5.4、Gemini 3.x、FLUX Kontext），並原生支援代理和 MCP。

什麼是 LiteLLM？

LiteLLM 充當大型語言模型的通用翻譯器和操作層。開發者使用熟悉的 OpenAI chat.completions 格式調用任何支援的模型，而 LiteLLM 則透明地處理身分驗證、架構轉換、重試和功能增強。

由 BerriAI 維護並由 Y Combinator 支持，LiteLLM 支援對話完成、嵌入、圖像生成、音訊轉錄、重新排序、批次處理，甚至是 A2A/MCP 協定。它能與商業雲端供應商和本地/自我託管的執行環境無縫協作。

核心理念：一次編寫，隨處運行 — 只需更改單一配置即可切換模型或供應商。

推動採用率的核心功能

統一的 OpenAI 相容 API：在所有供應商間保持一致的要求/回應格式，並自動映射錯誤。
AI 網關（代理伺服器）：可透過 Docker 部署的中央服務，附帶儀表板、虛擬金鑰、每金鑰/團隊預算、速率限制（RPM/TPM）和負載平衡。
內建成本與支出管理：即時追蹤，提供自訂定價、供應商利潤率，並可匯出至 Langfuse、Prometheus、OpenTelemetry 等。
可靠性引擎：自動後備方案、重試、基於使用量的或簡單路由、Redis 快取和防護措施。
可觀測性與日誌記錄：支援 LangSmith、Helicone、Lunary、MLflow 的回呼，以及原生 Prometheus 指標。
進階能力：串流處理、結構化輸出、函式呼叫、策略即程式碼，以及原生 MCP/A2A 支援。
企業治理：SSO（Okta、Azure AD）、RBAC、稽核日誌，以及針對大規模部署的付費商業功能。

SDK 與代理伺服器：選擇合適的部署方式

Python SDK（輕量級）：

非常適合原型設計、腳本撰寫或直接嵌入應用程式。
零基礎設施開銷。

代理伺服器（建議用於生產環境）：

集中治理層，任何與 OpenAI 相容的客戶端都可以通過 base_url 指向它。
非常適合需要金鑰管理、預算控制和可觀測性的團隊。

社群基準測試顯示，大多數組織在初期使用 SDK，並隨著使用規模擴大而遷移至代理伺服器。

快速開始範例

SDK 用法

import litellm

response = litellm.completion(
    model="gpt-4o",
    messages=[{"role": "user", "content": "用一句話解釋 LiteLLM。"}]
)

# 立即切換供應商
response = litellm.completion(
    model="anthropic/claude-3-5-sonnet-20241022",
    messages=[{"role": "user", "content": "用一句話解釋 LiteLLM。"}]
)

代理伺服器（Docker）

docker run -p 4000:4000 ghcr.io/berriai/litellm:main-latest \
  --config /path/to/config.yaml

在 config.yaml 中定義模型、金鑰、預算和路由，實現集中控制。

LiteLLM 與其他 LLM 閘道：2026 年比較

功能特點	LiteLLM	Bifrost (Maxim AI)	Portkey	Cloudflare AI Gateway
供應商覆蓋範圍	140+ / 2,500+ 模型	強大	200+	中等
語言 / 效能	Python（低至中等延遲）	Go（超低延遲 ~11μs）	Node.js	邊緣最佳化
成本追蹤	原生 + 自訂	進階	強大	基本
治理（SSO/RBAC）	企業授權	強大	極佳	有限
開源	完全開源	自託管免費	混合模式	專有
最佳適用場景	靈活性與廣泛覆蓋	高規模生產環境	企業合規	邊緣部署

分析顯示，對於以 Python 為首選的團隊和廣泛的模型實驗，LiteLLM 仍然是預設選擇，而像 Bifrost 這樣基於 Go 的替代方案則在超高併發場景中表現出色。

實際應用案例

多模型應用：根據任務複雜度，動態路由至成本最低或效能最強的模型。
成本優化與預算管理：實施使用者/團隊支出限制，並搭配自動警示機制。
高可用性：自動備援機制可在供應商服務發生問題時防止系統故障。
企業合規需求：虛擬金鑰、審計追蹤與安全防護措施，滿足各項安全規範。
混合雲端與本地部署：無縫整合 Ollama/自託管模型與雲端供應商服務。

LiteLLM 為從早期創業團隊到大型 ML 平台團隊的所有需求提供動力。

常見陷阱與進階技巧

高並行處理下的延遲問題：Python 的處理負荷可能在每秒 500 次以上請求時增加數百微秒；建議使用 Prometheus 監控，並在極高規模下考慮採用 Go 語言基礎的閘道器。
資料庫效能瓶頸：大量日誌寫入 PostgreSQL 可能成為效能瓶頸 —— 及早啟用 Redis 快取並調整連線池設定。
冷啟動延遲：龐大的套件載入可能拖慢啟動速度；可採用選擇性導入（如 from litellm import completion）或懶載入策略。
快取潛藏問題：偶爾會出現過期快取回應；針對時間敏感的查詢，務必驗證快取的 TTL 設定。
進階技巧：運用自訂回呼函數與程式化政策，實現細粒度控制，例如封鎖個人身份資訊（PII）或強制輸出格式。
邊界案例處理：並非所有供應商支援完全相同的功能（例如特定工具呼叫變體）；請務必在目標模型上測試關鍵流程。

積極應對這些問題的團隊，將能大幅提升系統可靠性並降低運維負擔。

LiteLLM 的未來展望

透過持續的重大版本發布與不斷擴展的生態系整合（包括深化 MCP 與代理支援），LiteLLM 持續鞏固其作為 LLM 抽象層開放標準的地位。預期 2026 年將推出更多企業級功能、更高效的路由機制以及更廣泛的協定支援。

總結

LiteLLM 消除了分散式 LLM API 的整合摩擦，讓開發者與平台團隊得以專注於建構智慧應用，而非與各家供應商的差異搏鬥。無論您需要的是快速原型開發的簡易 SDK，或是生產環境治理所需的穩健閘道器，LiteLLM 都能提供無與倫比的規模化彈性。

立即開始使用：執行 pip install litellm，透過 Docker 部署代理服務，或前往 docs.litellm.ai 瀏覽完整文件。統一 LLM 存取方案的未來，已然實現。

什麼是 LiteLLM？引領 2026 年整合 140 多家大型語言模型提供商的通用閘道

主要要點