主流大型语言模型概览

选择合适的模型是提示词工程的第一步。不同模型在能力、成本、速度上各有特点，了解这些差异有助于你为特定任务选择最优解。

时效性说明：AI 领域发展迅速，本章内容基于 2024-2025 年的模型状态。具体的模型版本和定价请以官方文档为准。

1. 主流模型对比

1.1 模型能力矩阵

模型	开发商	上下文窗口	核心优势	主要短板	适用场景
GPT-4o	OpenAI	128K	综合能力强，多模态	成本较高	复杂推理、代码生成
GPT-4o-mini	OpenAI	128K	性价比高，速度快	复杂推理略弱	日常任务、快速迭代
Claude 3.5 Sonnet	Anthropic	200K	长文本处理、写作质量	API 调用限制	文档分析、内容创作
Claude 3.5 Haiku	Anthropic	200K	速度快、成本低	能力有限	简单任务、高并发
Gemini 1.5 Pro	Google	1M	超长上下文、多模态	稳定性待验证	视频分析、海量文档
Llama 3.1 405B	Meta	128K	开源、可私有部署	需要算力支持	企业私有化、定制微调
DeepSeek-V3	DeepSeek	128K	中文能力强、性价比高	国际化程度	中文场景、成本敏感应用

1.2 OpenAI GPT 系列

GPT-4o（当前旗舰）

原生多模态：支持文本、图像、音频输入
综合能力最强，是复杂任务的首选
定价：约 $5/百万输入 Token，$15/百万输出 Token

GPT-4o-mini

性能接近 GPT-4，但成本仅为其 1/10
对于 80% 的日常任务足够使用
推荐作为开发和测试的默认选择

适用场景选择：

复杂推理、长代码生成 → GPT-4o
日常对话、简单任务 → GPT-4o-mini
需要一致性输出 → temperature=0

1.3 Anthropic Claude 系列

Claude 3.5 Sonnet

200K 上下文窗口，擅长处理长文档
写作质量和风格控制能力突出
对指令的遵循度高

Claude 3.5 Haiku

速度极快，适合需要低延迟的场景
成本约为 Sonnet 的 1/5

核心优势：

长文本处理：可以一次性处理完整的代码库或长篇文档
安全性：通过 Constitutional AI 技术，输出更安全可控
写作质量：文风自然，适合内容创作

1.4 Google Gemini 系列

Gemini 1.5 Pro

1M Token 上下文窗口（约等于一本中等篇幅的书）
原生多模态：支持文本、图像、音频、视频
与 Google 生态深度整合

适用场景：

分析长视频内容
处理超大规模文档
需要实时信息（通过 Google Search 增强）

1.5 开源模型：Llama 系列

Llama 3.1 405B

Meta 开源的最大参数模型
可商用，支持私有化部署
性能接近闭源模型

为什么选择开源模型：

考虑因素	闭源模型（如 GPT-4）	开源模型（如 Llama）
数据隐私	数据经过第三方	可完全本地化
成本	按调用计费	一次性算力投入
定制化	受限于 API	可微调和修改
运维复杂度	零运维	需要基础设施

1.6 国内模型

适合国内场景的模型：

模型	开发商	特点
DeepSeek-V3	DeepSeek	性价比极高，中文能力强
通义千问	阿里云	阿里生态整合，企业级支持
文心一言	百度	中文理解深度，搜索增强
GLM-4	智谱AI	开源版本可用，学术研究友好

2. 如何选择模型

2.1 决策框架

                    ┌─ 是 → Gemini 1.5 Pro
需要处理超长文档？ ─┤
                    └─ 否
                           │
                           ▼
                    ┌─ 是 → Claude 3.5 Sonnet
主要是写作/内容创作？─┤
                    └─ 否
                           │
                           ▼
                    ┌─ 是 → Llama 3.1 + 私有部署
有数据隐私要求？ ───┤
                    └─ 否
                           │
                           ▼
                    ┌─ 是 → DeepSeek-V3 / 国产模型
成本敏感？ ─────────┤
                    └─ 否
                           │
                           ▼
                    默认选择 → GPT-4o-mini（开发）
                            → GPT-4o（生产复杂任务）

2.2 实际建议

开发阶段：

使用 GPT-4o-mini 或 Claude Haiku 进行快速迭代
降低温度（temperature=0）确保输出稳定性
建立评估数据集，用于比较不同模型效果

生产阶段：

根据任务复杂度选择模型
考虑设置 fallback 机制（主模型失败时切换备用模型）
监控成本和延迟指标

特殊场景：

代码生成：GPT-4o 或 Claude 3.5 Sonnet
长文档分析：Claude 3.5 Sonnet 或 Gemini 1.5 Pro
中文内容：DeepSeek-V3 或通义千问
私有部署：Llama 3.1 系列

3. 多模型策略

在实际项目中，单一模型往往无法满足所有需求。考虑采用多模型策略：

3.1 分层使用

┌─────────────────────────────────────┐
│  复杂任务层（GPT-4o / Claude Opus）  │  ← 复杂推理、关键决策
├─────────────────────────────────────┤
│  标准任务层（GPT-4o-mini / Sonnet） │  ← 日常任务、内容生成
├─────────────────────────────────────┤
│  简单任务层（Haiku / mini）         │  ← 分类、提取、格式化
└─────────────────────────────────────┘

3.2 成本优化策略

策略	实现方式	预期效果
路由分发	根据任务复杂度选择模型	成本降低 30-50%
缓存复用	对相同输入缓存结果	减少重复调用
输出限制	设置合理的 max_tokens	避免过长输出
批量处理	合并多个小请求	减少 API 调用次数

4. 本章小结

没有"最好"的模型，只有最适合特定场景的模型
成本和能力需要权衡：从便宜的模型开始，按需升级
开源模型是可行选择：特别是对数据隐私有要求的场景
多模型策略可以同时优化成本和效果

选择模型只是开始，真正的价值在于如何通过提示词工程最大化模型的能力。接下来的章节，我们将学习具体的提示词构建技巧。

练习

选择一个你日常使用的任务（如代码审查、文档总结），分别用 GPT-4o-mini 和 GPT-4o 测试，比较效果差异。
如果你有数据隐私要求，研究一下 Llama 3.1 的本地部署方案（如 Ollama）。
计算一下：如果你的应用每天处理 10000 个请求，每个请求平均消耗 1000 Token，使用不同模型的月成本分别是多少？

在 GitHub 上编辑此页

主流大型语言模型概览 ​

1. 主流模型对比 ​

1.1 模型能力矩阵 ​

1.2 OpenAI GPT 系列 ​

1.3 Anthropic Claude 系列 ​

1.4 Google Gemini 系列 ​

1.5 开源模型：Llama 系列 ​

1.6 国内模型 ​

2. 如何选择模型 ​

2.1 决策框架 ​

2.2 实际建议 ​

3. 多模型策略 ​

3.1 分层使用 ​

3.2 成本优化策略 ​

4. 本章小结 ​

练习 ​