什么是 LiteLLM？面向超过140家供应商的开源 LLM 网关与代理（2026 年指南）

主要亮点

LiteLLM 是一个开源的 Python 库和自托管 AI 网关/代理，它提供了单一的、兼容 OpenAI 的接口，可连接 140 多家 LLM 提供商 和 2500 多种模型，包括 OpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure、Mistral、Ollama、vLLM，以及像 Nebius AI 这样的新兴选项。
它能处理模型路由、成本追踪、负载均衡、故障切换、缓存、防护栏和可观测性——所有这些都无需编写供应商特定的代码。
分析表明，LiteLLM 将多供应商集成工作量减少了 60-80%，并在生产部署中处理了超过 10 亿个请求，Docker 拉取量超过 2.4 亿次。
该项目既提供了用于代码集成的轻量级 Python SDK，也提供了功能齐全的 代理服务器，后者包含管理界面、虚拟密钥、预算和企业治理功能（商业许可证中包含 SSO/RBAC）。
截至 2026 年 3 月，LiteLLM 保持着约 4 万的 GitHub Star 和 1300 多位贡献者，其模型添加迅速（例如 v1.82.3 版本中的 GPT-5.4、Gemini 3.x、FLUX Kontext），并对代理和 MCP 提供原生支持。

什么是 LiteLLM？

LiteLLM 扮演着大语言模型的通用翻译器和操作层的角色。开发者可以使用熟悉的 OpenAI chat.completions 格式调用任何支持的模型，而 LiteLLM 则透明地处理认证、模式转换、重试和功能增强。

该项目由 BerriAI 维护，并获得 Y Combinator 支持。LiteLLM 支持完成、嵌入、图像生成、音频转录、重排序、批处理，甚至 A2A/MCP 协议。它能与商业云提供商和本地/自托管运行时无缝协作。

核心理念：编写一次，随处运行——只需更改一个配置即可切换模型或提供商。

推动其采用的核心特性

统一的 OpenAI 兼容 API：一致的请求/响应格式，并能跨所有提供商自动映射错误。
AI 网关（代理服务器）：可通过 Docker 部署的中心化服务，附带仪表盘、虚拟密钥、每个密钥/团队的预算、速率限制（RPM/TPM）和负载均衡功能。
内置成本与支出管理：实时追踪，支持自定义定价、供应商利润，并可导出到 Langfuse、Prometheus、OpenTelemetry 等平台。
可靠性引擎：自动故障切换、重试、基于用量或简单路由、Redis 缓存和防护栏。
可观测性与日志记录：支持 LangSmith、Helicone、Lunary、MLflow 等回调，并提供原生 Prometheus 指标。
高级能力：流式传输、结构化输出、函数调用、策略即代码，以及原生 MCP/A2A 支持。
企业治理：SSO（Okta、Azure AD）、RBAC、审计日志，以及针对大规模部署的付费商业功能。

SDK 与代理：选择合适的部署方式

Python SDK（轻量级）：

非常适合原型设计、脚本编写或直接嵌入应用程序。
零基础设施开销。

代理服务器（生产环境推荐）：

集中治理层，任何 OpenAI 兼容客户端均可通过 base_url 指向。
适合需要密钥管理、预算控制和可观测性的团队。

社区基准测试表明，大多数组织从 SDK 开始，随着使用规模扩大逐渐迁移到代理。

快速入门示例

SDK 使用

import litellm

response = litellm.completion(
    model="gpt-4o",
    messages=[{"role": "user", "content": "用一句话解释 LiteLLM。"}]
)

# 即时切换供应商
response = litellm.completion(
    model="anthropic/claude-3-5-sonnet-20241022",
    messages=[{"role": "user", "content": "用一句话解释 LiteLLM。"}]
)

代理服务器（Docker）

docker run -p 4000:4000 ghcr.io/berriai/litellm:main-latest \
  --config /path/to/config.yaml

在 config.yaml 中定义模型、密钥、预算和路由以实现集中控制。

LiteLLM 与其他 LLM 网关：2026 年对比

功能特性	LiteLLM	Bifrost（Maxim AI）	Portkey	Cloudflare AI Gateway
供应商覆盖	140+ / 2,500+ 模型	强大	200+	中等
语言 / 性能	Python（低至中等延迟）	Go（超低延迟 ~11μs）	Node.js	边缘优化
成本追踪	原生 + 自定义	高级	强大	基础
治理（SSO/RBAC）	企业许可证	强大	优秀	有限
开源	完全开源	自托管免费	混合模式	专有
最适合	灵活性与广泛覆盖	高规模生产	企业合规	边缘部署

分析显示，LiteLLM 仍然是 Python 优先团队和广泛模型实验的首选，而基于 Go 的替代方案（如 Bifrost）在超高并发场景中表现卓越。

实际应用场景

多模型应用程序: 根据任务复杂度，动态路由到最经济或性能最强的模型。
成本优化与预算管理: 实施按用户/团队的费用限制，并自动发出警报。
高可用性: 提供商发生故障时，自动降级机制可防止服务中断。
企业合规性: 虚拟密钥、审计记录与防护机制满足安全要求。
混合云与本地: 无缝整合 Ollama/自托管模型与云提供商。

LiteLLM 广泛应用于从早期初创公司到大型 ML 平台团队的各种场景。

常见陷阱与进阶技巧

高并发延迟: Python 开销可能在每秒 500+ 请求时增加数百微秒；使用 Prometheus 进行监控，并在极端规模下考虑基于 Go 的网关。
数据库性能: 大量日志写入 PostgreSQL 可能成为瓶颈——尽早启用 Redis 缓存并调整连接池设置。
冷启动: 大型包的导入可能减慢启动速度；使用选择性导入（from litellm import completion）或延迟加载。
缓存陷阱: 偶现过时缓存响应；对于时间敏感的查询，始终验证缓存 TTL。
进阶技巧: 利用自定义回调与策略代码实现细粒度控制，例如屏蔽个人身份信息或强制执行输出格式。
边界情况: 并非所有提供商都支持相同功能（例如某些特定工具调用变体）；务必在目标模型中测试关键路径。

主动处理这些问题的团队能显著提高可靠性并降低运维开销。

LiteLLM 的未来展望

凭借持续的重大版本更新与日益增长的生态系统集成（包括更深入的 MCP 与代理支持），LiteLLM 正持续巩固其作为 LLM 抽象层开源标准的地位。预计在 2026 年将推出更多企业级功能、更快的路由速度以及更广泛的协议支持。

结论

LiteLLM 消除了分散 LLM API 的摩擦，让开发者和平台团队专注于构建智能应用程序，而非纠结于供应商间的差异。无论您需要一个用于快速原型设计的简易 SDK，还是用于生产管理的稳健网关，LiteLLM 都能提供无与伦比的规模化灵活性。

即刻开始：pip install litellm，通过 Docker 部署代理，或在 docs.litellm.ai 查阅完整文档。统一的 LLM 访问未来已至。

什么是 LiteLLM？2026 年支撑超过140家 LLM 供应商的统一网关

主要亮点