Appearance
主流大型语言模型概览
选择合适的模型是提示词工程的第一步。不同模型在能力、成本、速度上各有特点,了解这些差异有助于你为特定任务选择最优解。
时效性说明:AI 领域发展迅速,本章内容基于 2024-2025 年的模型状态。具体的模型版本和定价请以官方文档为准。
1. 主流模型对比
1.1 模型能力矩阵
| 模型 | 开发商 | 上下文窗口 | 核心优势 | 主要短板 | 适用场景 |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 128K | 综合能力强,多模态 | 成本较高 | 复杂推理、代码生成 |
| GPT-4o-mini | OpenAI | 128K | 性价比高,速度快 | 复杂推理略弱 | 日常任务、快速迭代 |
| Claude 3.5 Sonnet | Anthropic | 200K | 长文本处理、写作质量 | API 调用限制 | 文档分析、内容创作 |
| Claude 3.5 Haiku | Anthropic | 200K | 速度快、成本低 | 能力有限 | 简单任务、高并发 |
| Gemini 1.5 Pro | 1M | 超长上下文、多模态 | 稳定性待验证 | 视频分析、海量文档 | |
| Llama 3.1 405B | Meta | 128K | 开源、可私有部署 | 需要算力支持 | 企业私有化、定制微调 |
| DeepSeek-V3 | DeepSeek | 128K | 中文能力强、性价比高 | 国际化程度 | 中文场景、成本敏感应用 |
1.2 OpenAI GPT 系列
GPT-4o(当前旗舰)
- 原生多模态:支持文本、图像、音频输入
- 综合能力最强,是复杂任务的首选
- 定价:约 $5/百万输入 Token,$15/百万输出 Token
GPT-4o-mini
- 性能接近 GPT-4,但成本仅为其 1/10
- 对于 80% 的日常任务足够使用
- 推荐作为开发和测试的默认选择
适用场景选择:
复杂推理、长代码生成 → GPT-4o
日常对话、简单任务 → GPT-4o-mini
需要一致性输出 → temperature=01.3 Anthropic Claude 系列
Claude 3.5 Sonnet
- 200K 上下文窗口,擅长处理长文档
- 写作质量和风格控制能力突出
- 对指令的遵循度高
Claude 3.5 Haiku
- 速度极快,适合需要低延迟的场景
- 成本约为 Sonnet 的 1/5
核心优势:
- 长文本处理:可以一次性处理完整的代码库或长篇文档
- 安全性:通过 Constitutional AI 技术,输出更安全可控
- 写作质量:文风自然,适合内容创作
1.4 Google Gemini 系列
Gemini 1.5 Pro
- 1M Token 上下文窗口(约等于一本中等篇幅的书)
- 原生多模态:支持文本、图像、音频、视频
- 与 Google 生态深度整合
适用场景:
- 分析长视频内容
- 处理超大规模文档
- 需要实时信息(通过 Google Search 增强)
1.5 开源模型:Llama 系列
Llama 3.1 405B
- Meta 开源的最大参数模型
- 可商用,支持私有化部署
- 性能接近闭源模型
为什么选择开源模型:
| 考虑因素 | 闭源模型(如 GPT-4) | 开源模型(如 Llama) |
|---|---|---|
| 数据隐私 | 数据经过第三方 | 可完全本地化 |
| 成本 | 按调用计费 | 一次性算力投入 |
| 定制化 | 受限于 API | 可微调和修改 |
| 运维复杂度 | 零运维 | 需要基础设施 |
1.6 国内模型
适合国内场景的模型:
| 模型 | 开发商 | 特点 |
|---|---|---|
| DeepSeek-V3 | DeepSeek | 性价比极高,中文能力强 |
| 通义千问 | 阿里云 | 阿里生态整合,企业级支持 |
| 文心一言 | 百度 | 中文理解深度,搜索增强 |
| GLM-4 | 智谱AI | 开源版本可用,学术研究友好 |
2. 如何选择模型
2.1 决策框架
┌─ 是 → Gemini 1.5 Pro
需要处理超长文档? ─┤
└─ 否
│
▼
┌─ 是 → Claude 3.5 Sonnet
主要是写作/内容创作?─┤
└─ 否
│
▼
┌─ 是 → Llama 3.1 + 私有部署
有数据隐私要求? ───┤
└─ 否
│
▼
┌─ 是 → DeepSeek-V3 / 国产模型
成本敏感? ─────────┤
└─ 否
│
▼
默认选择 → GPT-4o-mini(开发)
→ GPT-4o(生产复杂任务)2.2 实际建议
开发阶段:
- 使用 GPT-4o-mini 或 Claude Haiku 进行快速迭代
- 降低温度(temperature=0)确保输出稳定性
- 建立评估数据集,用于比较不同模型效果
生产阶段:
- 根据任务复杂度选择模型
- 考虑设置 fallback 机制(主模型失败时切换备用模型)
- 监控成本和延迟指标
特殊场景:
- 代码生成:GPT-4o 或 Claude 3.5 Sonnet
- 长文档分析:Claude 3.5 Sonnet 或 Gemini 1.5 Pro
- 中文内容:DeepSeek-V3 或通义千问
- 私有部署:Llama 3.1 系列
3. 多模型策略
在实际项目中,单一模型往往无法满足所有需求。考虑采用多模型策略:
3.1 分层使用
┌─────────────────────────────────────┐
│ 复杂任务层(GPT-4o / Claude Opus) │ ← 复杂推理、关键决策
├─────────────────────────────────────┤
│ 标准任务层(GPT-4o-mini / Sonnet) │ ← 日常任务、内容生成
├─────────────────────────────────────┤
│ 简单任务层(Haiku / mini) │ ← 分类、提取、格式化
└─────────────────────────────────────┘3.2 成本优化策略
| 策略 | 实现方式 | 预期效果 |
|---|---|---|
| 路由分发 | 根据任务复杂度选择模型 | 成本降低 30-50% |
| 缓存复用 | 对相同输入缓存结果 | 减少重复调用 |
| 输出限制 | 设置合理的 max_tokens | 避免过长输出 |
| 批量处理 | 合并多个小请求 | 减少 API 调用次数 |
4. 本章小结
- 没有"最好"的模型,只有最适合特定场景的模型
- 成本和能力需要权衡:从便宜的模型开始,按需升级
- 开源模型是可行选择:特别是对数据隐私有要求的场景
- 多模型策略可以同时优化成本和效果
选择模型只是开始,真正的价值在于如何通过提示词工程最大化模型的能力。接下来的章节,我们将学习具体的提示词构建技巧。
练习
- 选择一个你日常使用的任务(如代码审查、文档总结),分别用 GPT-4o-mini 和 GPT-4o 测试,比较效果差异。
- 如果你有数据隐私要求,研究一下 Llama 3.1 的本地部署方案(如 Ollama)。
- 计算一下:如果你的应用每天处理 10000 个请求,每个请求平均消耗 1000 Token,使用不同模型的月成本分别是多少?