OpenAI 今日正式发布其旗舰级前沿模型 GPT-5.5。相较于 GPT-5.4 及其他同类竞争模型,GPT-5.5 在智能体编码、计算机自主操作、知识型工作以及早期科研任务等多个维度上展现出显著更强的性能。
据 OpenAI 介绍,GPT-5.5 被设计用于处理多种复杂任务,包括代码编写与调试、在线研究、数据分析、文档生成等。与以往需要用户逐步手动提示不同,该模型具备自主规划、调用工具、自我验证并持续执行以达成目标的能力。尽管能力大幅提升,OpenAI 表示 GPT-5.5 在实际部署中的每令牌延迟与 GPT-5.4 相当,且在完成相同 Codex 任务时消耗的令牌数量更少。
在性能基准测试方面,GPT-5.5表现亮眼:
在 Artificial Analysis 发布的“编码智能体指数”中,GPT-5.5 位居榜首,成本仅为同类前沿编码模型的一半;
在衡量复杂命令行工作流(涉及规划、迭代与工具协同)的 Terminal-Bench 2.0 测试中,得分达 82.7%;
在模拟真实 GitHub 问题修复场景的 SWE-Bench Pro 测试中,准确率达到 58.6%;
在评估44类职业知识型任务完成能力的 GDPval 测试中,得分为 84.9%;
在测试真实环境中自主计算机操作能力的 OSWorld-Verified 基准中,得分为 78.7%;
在评估复杂客服流程的 Tau2-bench Telecom 测试中,未经提示调优即取得 98.0% 的高分。
完整基准对比详见下方:
目前,GPT-5.5 模型已面向 ChatGPT Plus、Pro、Business 及 Enterprise 用户,在 ChatGPT 和 Codex 平台中上线。GPT-5.5 Pro 版本正逐步向 ChatGPT Pro、Business 和 Enterprise 用户推送。在 Codex 中,用户还可选择“快速模式”,其速度提升 1.5 倍,成本为标准的 2.5 倍。
对于开发者,GPT-5.5 已通过 API 开放,支持 Responses 和 Chat Completions 接口,定价为每百万输入令牌 5 美元、每百万输出令牌 30 美元,上下文窗口高达 100 万令牌。一如既往,使用 Batch 和 Flex 处理方式的开发者可享受 50% 的费用折扣。而 GPT-5.5 Pro 的 API 定价为每百万输入令牌 30 美元、每百万输出令牌 180 美元。
OpenAI 特别强调,相较于 GPT-5.4,GPT-5.5 能够以更少的令牌消耗实现更优的输出结果,进一步提升效率与性价比。