Codex vs Claude Code vs DeepSeek:2026 年最新编程能力对比
摘要
截至 2026 年 6 月,三家最具代表性的”编程智能体”已经进入新一轮分化:OpenAI 通过 GPT-5.1-Codex-Max + Codex CLI 主打”长时程自主编码代理”,凭借 compaction 机制可在多上下文窗口上跨越式工作 24 小时以上;Anthropic 的 Claude Opus 4.5 + Claude Code 2.0 则以 80.9% SWE-bench Verified 重新登顶编码榜,并将 Sonnet 4.5 的”30 小时连续编码”和 VS Code 原生扩展、checkpoints 引入工程实践;DeepSeek 走开源路线,从 V3.1-Terminus 到 V3.2 / V3.2-Speciale,以 MIT 许可证、约 1/20 的 API 价格在 SWE-bench Verified 上接近 70%、在 HumanEval 上达到 89.7%,成为低成本自部署与国产生态首选。三者”代码补全 / 终端代理 / 长程自主代理”的偏重不同,应根据预算、合规和任务时长进行选型。
研究问题
- 三家最新版本的编码模型/产品(Codex 系列、Claude Code 系列、DeepSeek 系列)在 SWE-bench Verified、Terminal-Bench、LiveCodeBench、HumanEval 等基准上的最新成绩各是多少?
- 它们在产品形态(CLI / IDE / Agent / API / 是否开源)、上下文窗口、Agentic 能力、长任务自主执行上的差异?
- 三家在价格与可用性、生态集成上的差异?
- 在不同实际场景下(个人开发、企业团队、自部署、跨语言项目、长时程重构等)应当如何选型?
发现
1. OpenAI Codex 线(GPT-5.1-Codex-Max + Codex CLI)
- GPT-5.1-Codex-Max 是 OpenAI 当前主推的编码旗舰,原生为长时程 agentic 软件工程任务训练,是首个原生跨多上下文窗口工作的 OpenAI 模型,依靠 compaction(上下文压缩与衔接) 机制实现”跨百万级 token 维持任务连贯性”,OpenAI 内部展示其完成了 24 小时无人值守的编码任务。来源
- 基准成绩:SWE-bench Verified(xhigh reasoning)≈ **77.9%**,Terminal-Bench 2.0 ≈ **58.1%**,LiveCodeBench Pro Elo ≈ 2,439;相比 GPT-5.1-Codex 的 73.7%,且在中等推理强度下 thinking tokens 减少约 30%。来源
- Codex CLI 自 2025-04-17 开源发布,2025-06 用 Rust 重写,提供 Suggest / Auto Edit / Full Auto 三档自动化模式,2025-09 增加思考摘要、会话恢复、VS Code 集成;并在 ChatGPT Plus/Pro/Business 中作为 GPT-5.1-Codex-Max 的主要交付通道,API 也已可用。来源、来源
- 首个原生为 Windows 训练的 OpenAI 编码模型(PowerShell / 企业工作流),契合企业级 Windows 开发场景。来源
2. Anthropic Claude 线(Claude Opus 4.5 + Sonnet 4.5 + Claude Code 2.0)
- Claude Opus 4.5 于 2025-11-24 发布,被官方与第三方一致评价为”全球最强编码模型”。**SWE-bench Verified 取得 80.9%**,在 SWE-bench 多语言版的 8 种语言中拿下 7 项第一,超过 GPT-5.1(77.9%)与 Gemini 3 Pro(76.2%)。来源、来源
- 效率与上下文:Opus 4.5 上下文 200K,新增
effort参数让开发者权衡速度/能力;在中等 effort 下输出 token 比 Sonnet 4.5 减少约 76%,并改进了 prompt injection 鲁棒性。定价 $5 / $25 每百万 token(输入/输出)。来源 - Claude Sonnet 4.5(2025-09-29 发布) 是性价比版编码主力,Terminal-Bench 50%、SWE-bench Verified 77.2%(并行 82%)、OSWorld 61.4%;单会话可连续编码 30+ 小时、生成约 1.1 万行代码;定价仍为 $3 / $15 每百万 token。来源
- Claude Code 2.0 引入 Checkpoints(任务回滚)、Terminal 2.0 与原生 VS Code 扩展、Context Editing & Memory Tool(Beta)API、开源的 Claude Agent SDK,将 Claude 模型与终端/IDE/长任务记忆深度耦合。来源
3. DeepSeek 线(V3.1-Terminus → V3.2 / V3.2-Speciale + DeepSeek-Coder / R1)
- DeepSeek-V3.1-Terminus(2025 Q3) 是首个在 SWE-bench 类基准上跻身一线的开源权重模型:SWE-bench Verified **68.4%**、Multilingual SWE-bench 57.8%、Terminal-Bench **36.7%**、HumanEval 91.2%、LiveCodeBench 74.9%;采用 Hybrid Reasoning(Thinking 128K / Non-Thinking 4K),并修复了中英混杂等输出问题。来源、来源
- DeepSeek-V3.2-Exp 于 2025-09-29 发布,引入 DSA(Deep Sparse Attention) 与 UE8M0 FP8 数据格式,支持 160K 超长上下文,长文本推理成本下降约 50%,API 价格再砍 50%+。V3.2 / V3.2-Speciale 于 2025-12-01 发布,Speciale 在 MATH 92.1、HumanEval 89.7 上据报道超过 GPT-5 与 Gemini 3 Pro(编码总体水平接近 GPT-5、略低于 Gemini 3 Pro)。来源、来源
- 价格与可用性:API 输入命中缓存 ¥0.2 / 百万 token、输出 ¥3 / 百万 token;权重在 Hugging Face / ModelScope 以 MIT 许可证 开源,支持 vLLM、SGLang,以及华为昇腾 / 寒武纪 / 海光等国产芯片,已被腾讯混元 2.0、中国电信”息壤”、中国联通元景 MaaS 等接入。来源、来源
- DeepSeek 官方未提供原生 Codex/Claude Code 级别的 IDE 代理,但生态中第三方代理(Cline、Roo Code、Aider、Continue、OpenHands、SWE-agent 等)普遍支持调用 DeepSeek 模型;R1 / R1-0528 仍是低成本推理首选,社区把 V3.2 + Aider/Cline 当作”开源版 Claude Code”使用。来源
对比与判断
维度对比表
| 维度 | OpenAI(GPT-5.1-Codex-Max + Codex CLI) | Anthropic(Opus 4.5 / Sonnet 4.5 + Claude Code 2.0) | DeepSeek(V3.2 / V3.2-Speciale / R1) |
|---|---|---|---|
| 最新版本 & 时间 | GPT-5.1-Codex-Max(2025 Q4)、Codex CLI(2025-04 起,持续更新) | Opus 4.5(2025-11-24)、Sonnet 4.5(2025-09-29)、Claude Code 2.0 | V3.1-Terminus(2025 Q3)、V3.2-Exp(2025-09-29)、V3.2 / V3.2-Speciale(2025-12-01) |
| 产品形态 | CLI(Rust 开源)、IDE 扩展、ChatGPT 内置、API、云端 agent | CLI(Claude Code)、VS Code 扩展、Agent SDK 开源、API、桌面 app | 开源权重 + API;本地化部署、第三方 CLI/IDE(Cline/Aider/OpenHands)调用 |
| SWE-bench Verified | **77.9%**(xhigh) | **80.9%**(Opus 4.5)/ 77.2%(Sonnet 4.5) | 68.4%(V3.1-Terminus);V3.2 报告达 GPT-5 级别 |
| Terminal-Bench | **58.1%**(v2.0) | 50%(Sonnet 4.5),Opus 4.5 在此基础上再 +29% | 36.7%(V3.1-Terminus) |
| LiveCodeBench / HumanEval | LiveCodeBench Pro Elo 2,439 | 官方主推 SWE-bench / Terminal-Bench | LiveCodeBench 74.9% / HumanEval 89.7%–91.2% |
| 上下文窗口 | Codex CLI 192K,模型层通过 compaction 跨窗口 | 200K(带 context editing & memory) | 160K(DSA 稀疏注意力) |
| 长任务自主执行 | 24h 内部演示,跨上下文窗口 compaction | 30h 连续编码 / 单会话 1.1 万行代码 + checkpoints | 取决于第三方 agent 框架,原生官方代理较弱 |
| 是否开源 | Codex CLI 开源;模型闭源 | Agent SDK 开源;模型闭源 | 模型权重 MIT 开源 |
| 主要语言/IDE 集成 | VS Code / JetBrains 扩展、CLI、ChatGPT;Windows 原生训练 | VS Code 原生扩展、CLI、桌面 app、Agent SDK | 通过 Aider / Cline / Continue / OpenHands / SWE-agent;国产芯片支持 |
| 价格(API) | 与 GPT-5.1 体系一致;CLI 对 Plus/Pro/Business 可用 | Opus 4.5:$5/$25;Sonnet 4.5:$3/$15 | 输入 ¥0.2 / 输出 ¥3 每百万 token;自部署 0 token 成本 |
| 主要短板 | 闭源,企业合规/数据出境受限;中文生态不深 | 价格最高;Opus 在小型任务上属于”过度配置” | 官方原生 agent 弱;多文件超长程稳定性弱于 Claude Code/Codex;非英文细节社区评价不一 |
选型建议
| 场景 | 推荐 | 理由 |
|---|---|---|
| 单次”重构整个仓库 / 24h 自动跑”长程任务 | GPT-5.1-Codex-Max + Codex CLI | compaction 跨窗口、长时程稳定性最强 |
| 日常 IDE 内多文件改动 + 终端 agent + 高代码质量 | Claude Sonnet 4.5(Claude Code 2.0) | SWE-bench / Terminal-Bench 平衡最好,价格中等 |
| 攻克最难的 bug / 重要架构变更 / 一锤定音 | Claude Opus 4.5 | SWE-bench Verified 80.9% 当前最高,token 效率反而提升 |
| 企业自部署 / 数据合规 / 中国大陆生态 | DeepSeek V3.2(+ Aider 或 Cline) | MIT 开源、国产芯片支持、API 极低价 |
| 大规模批量代码生成 / CI 评估 / 学生学习 | DeepSeek V3.1-Terminus / V3.2 | HumanEval / LiveCodeBench 已够用,价格最低 |
| Windows / PowerShell 重度开发 | GPT-5.1-Codex-Max | 首个原生 Windows 训练的 OpenAI 编码模型 |
| 需要纯中文研发协作与混合推理 | DeepSeek V3.2-Speciale | 修复了中英混杂问题,长推理深度强 |
| 跨语言(Java / Rust / Go 等多语种)维护 | Claude Opus 4.5 | SWE-bench 多语言 8 项里赢 7 项 |
核心判断
- “最强单点编码“目前在 Anthropic(Opus 4.5 SWE-bench 80.9%),”最强长时程代理“在 OpenAI(Codex-Max + 24h compaction),”最强性价比 / 自部署“在 DeepSeek(MIT、¥0.2 输入价)。
- Codex CLI 与 Claude Code 2.0 都已经把”终端 + IDE + 长记忆 + 任务回滚 + Agent SDK”做成完整工程产品,DeepSeek 仍主要靠社区生态(Aider、Cline、OpenHands 等)补齐前端形态。
- 价格梯度:DeepSeek(¥级)≪ Sonnet 4.5($3/$15)< Opus 4.5($5/$25)≈ GPT-5.1-Codex-Max(GPT-5.1 体系)。但在长任务场景里,token 效率比单价更关键——Opus 4.5 中等 effort 下输出 token 减少 ~76%,反而可能比便宜模型更省钱。
不确定性
- DeepSeek-V3.2 / V3.2-Speciale 的 SWE-bench Verified 具体百分比尚未在官方英文渠道发布,目前数字来自国内媒体与百科条目,”接近 GPT-5”为厂商自评,需谨慎采信。来源
- Anthropic 官方 anthropic.com 在本次研究中部分页面 403/无法直接抓取,Opus 4.5 的 80.9% 数字虽被多家第三方与官方新闻页一致引用,但完整 system card 未直接抓取交叉验证。
- Codex 与 GPT-5.1/5.5 的产品命名在不同来源中存在出入(”Codex 并入 GPT-5.5”等),属于二手百科性质信息,不作为权威结论使用。
- Aider Polyglot leaderboard 在本次研究中未直接抓取最新表格,三方相对名次以官方新闻为准,建议读者按需查阅 aider.chat/docs/leaderboards 最新版本。
后续行动
- 跟进 DeepSeek-V3.2 / V3.2-Speciale 官方英文 technical report 与 SWE-bench 复现脚本。
- 在自有仓库上做一次”同 prompt、同任务”的三方实测:Codex CLI / Claude Code 2.0 / DeepSeek + Aider,对比真实改动正确率与耗时。
- 关注 Anthropic 是否在 2026 H1 发布更便宜的 Haiku 4.5 / 编码专用 SKU,以及 OpenAI 把 Codex-Max 推到 API 之后的真实定价。
- 若公司有合规/出海要求,评估 DeepSeek 自部署 + 国产芯片栈的端到端工程成本。
来源
- OpenAI – Building more with GPT-5.1-Codex-Max
- OpenAI Developers – Codex Changelog
- GitHub – openai/codex-cli
- Anthropic – Claude Opus 4.5
- Anthropic – Claude Sonnet 4.5
- Booststash – Claude Opus 4.5 Crushes GPT-5
- Codecademy – Claude Opus 4.5 Tutorial for AI Agents and Coding
- Hugging Face – deepseek-ai/DeepSeek-V3.1-Terminus
- VentureBeat – DeepSeek-V3.1-Terminus launches with improved agentic tool use
- CometAPI – What is DeepSeek V3.1 Terminus
- 百度百科 – DeepSeek-V3.2
- 百度百科 – DeepSeek-V3.2-Speciale
- 光明网 – 中国联通元景 MaaS 上线 DeepSeek v3.2
- Aider – LLM Leaderboards