Skip to content

主流大型语言模型概览

选择合适的模型是提示词工程的第一步。不同模型在能力、成本、速度上各有特点,了解这些差异有助于你为特定任务选择最优解。

时效性说明:AI 领域发展迅速,本章内容基于 2024-2025 年的模型状态。具体的模型版本和定价请以官方文档为准。

1. 主流模型对比

1.1 模型能力矩阵

模型开发商上下文窗口核心优势主要短板适用场景
GPT-4oOpenAI128K综合能力强,多模态成本较高复杂推理、代码生成
GPT-4o-miniOpenAI128K性价比高,速度快复杂推理略弱日常任务、快速迭代
Claude 3.5 SonnetAnthropic200K长文本处理、写作质量API 调用限制文档分析、内容创作
Claude 3.5 HaikuAnthropic200K速度快、成本低能力有限简单任务、高并发
Gemini 1.5 ProGoogle1M超长上下文、多模态稳定性待验证视频分析、海量文档
Llama 3.1 405BMeta128K开源、可私有部署需要算力支持企业私有化、定制微调
DeepSeek-V3DeepSeek128K中文能力强、性价比高国际化程度中文场景、成本敏感应用

1.2 OpenAI GPT 系列

GPT-4o(当前旗舰)

  • 原生多模态:支持文本、图像、音频输入
  • 综合能力最强,是复杂任务的首选
  • 定价:约 $5/百万输入 Token,$15/百万输出 Token

GPT-4o-mini

  • 性能接近 GPT-4,但成本仅为其 1/10
  • 对于 80% 的日常任务足够使用
  • 推荐作为开发和测试的默认选择

适用场景选择

复杂推理、长代码生成 → GPT-4o
日常对话、简单任务 → GPT-4o-mini
需要一致性输出 → temperature=0

1.3 Anthropic Claude 系列

Claude 3.5 Sonnet

  • 200K 上下文窗口,擅长处理长文档
  • 写作质量和风格控制能力突出
  • 对指令的遵循度高

Claude 3.5 Haiku

  • 速度极快,适合需要低延迟的场景
  • 成本约为 Sonnet 的 1/5

核心优势

  • 长文本处理:可以一次性处理完整的代码库或长篇文档
  • 安全性:通过 Constitutional AI 技术,输出更安全可控
  • 写作质量:文风自然,适合内容创作

1.4 Google Gemini 系列

Gemini 1.5 Pro

  • 1M Token 上下文窗口(约等于一本中等篇幅的书)
  • 原生多模态:支持文本、图像、音频、视频
  • 与 Google 生态深度整合

适用场景

  • 分析长视频内容
  • 处理超大规模文档
  • 需要实时信息(通过 Google Search 增强)

1.5 开源模型:Llama 系列

Llama 3.1 405B

  • Meta 开源的最大参数模型
  • 可商用,支持私有化部署
  • 性能接近闭源模型

为什么选择开源模型

考虑因素闭源模型(如 GPT-4)开源模型(如 Llama)
数据隐私数据经过第三方可完全本地化
成本按调用计费一次性算力投入
定制化受限于 API可微调和修改
运维复杂度零运维需要基础设施

1.6 国内模型

适合国内场景的模型

模型开发商特点
DeepSeek-V3DeepSeek性价比极高,中文能力强
通义千问阿里云阿里生态整合,企业级支持
文心一言百度中文理解深度,搜索增强
GLM-4智谱AI开源版本可用,学术研究友好

2. 如何选择模型

2.1 决策框架

                    ┌─ 是 → Gemini 1.5 Pro
需要处理超长文档? ─┤
                    └─ 否


                    ┌─ 是 → Claude 3.5 Sonnet
主要是写作/内容创作?─┤
                    └─ 否


                    ┌─ 是 → Llama 3.1 + 私有部署
有数据隐私要求? ───┤
                    └─ 否


                    ┌─ 是 → DeepSeek-V3 / 国产模型
成本敏感? ─────────┤
                    └─ 否


                    默认选择 → GPT-4o-mini(开发)
                            → GPT-4o(生产复杂任务)

2.2 实际建议

开发阶段

  • 使用 GPT-4o-mini 或 Claude Haiku 进行快速迭代
  • 降低温度(temperature=0)确保输出稳定性
  • 建立评估数据集,用于比较不同模型效果

生产阶段

  • 根据任务复杂度选择模型
  • 考虑设置 fallback 机制(主模型失败时切换备用模型)
  • 监控成本和延迟指标

特殊场景

  • 代码生成:GPT-4o 或 Claude 3.5 Sonnet
  • 长文档分析:Claude 3.5 Sonnet 或 Gemini 1.5 Pro
  • 中文内容:DeepSeek-V3 或通义千问
  • 私有部署:Llama 3.1 系列

3. 多模型策略

在实际项目中,单一模型往往无法满足所有需求。考虑采用多模型策略:

3.1 分层使用

┌─────────────────────────────────────┐
│  复杂任务层(GPT-4o / Claude Opus)  │  ← 复杂推理、关键决策
├─────────────────────────────────────┤
│  标准任务层(GPT-4o-mini / Sonnet) │  ← 日常任务、内容生成
├─────────────────────────────────────┤
│  简单任务层(Haiku / mini)         │  ← 分类、提取、格式化
└─────────────────────────────────────┘

3.2 成本优化策略

策略实现方式预期效果
路由分发根据任务复杂度选择模型成本降低 30-50%
缓存复用对相同输入缓存结果减少重复调用
输出限制设置合理的 max_tokens避免过长输出
批量处理合并多个小请求减少 API 调用次数

4. 本章小结

  1. 没有"最好"的模型,只有最适合特定场景的模型
  2. 成本和能力需要权衡:从便宜的模型开始,按需升级
  3. 开源模型是可行选择:特别是对数据隐私有要求的场景
  4. 多模型策略可以同时优化成本和效果

选择模型只是开始,真正的价值在于如何通过提示词工程最大化模型的能力。接下来的章节,我们将学习具体的提示词构建技巧。


练习

  1. 选择一个你日常使用的任务(如代码审查、文档总结),分别用 GPT-4o-mini 和 GPT-4o 测试,比较效果差异。
  2. 如果你有数据隐私要求,研究一下 Llama 3.1 的本地部署方案(如 Ollama)。
  3. 计算一下:如果你的应用每天处理 10000 个请求,每个请求平均消耗 1000 Token,使用不同模型的月成本分别是多少?
主流大型语言模型概览 has loaded