安索普正式官宣旗下 Opus 系列旗舰模型的全新版本 Claude Opus 4.6 上线,这也是该公司首款实现 100 万个令牌上下文支持的模型。此次扩容的大上下文功能目前处于公测阶段,专门面向需要处理海量信息的各类任务打造。
据安索普官方介绍,Claude Opus 4.6 在编程类任务中的表现大幅超越上一代的 Opus 4.5:能够更长时间稳定运行智能体任务且不损失输出质量,对大型代码库的处理能力更可靠,代码检查与调试的表现也更出色,甚至可以自主识别并修正自身产生的代码错误。
在多项基准测试中,Opus 4.6 均交出亮眼成绩单:在评估网络冷门信息检索能力的 BrowseComp 测试、综合考察多学科学术知识的 Humanity’s Last Exam 测试,以及聚焦智能体编程能力的 Terminal-Bench 2.0 测试中均位列榜首;而在针对复杂高价值商业问题解决能力的 GDPval-AA 测试中,该模型的表现不仅超越上一代 Claude Opus 4.5,更优于 OpenAI 的 GPT-5.2。
在推出新模型的同时,安索普也完成了旗下相关产品的同步升级。Claude Code 新增智能体任务编组功能,支持多个智能体自主并行处理同一任务,该功能目前处于研究预览阶段,专为大型代码库分析、全量代码评审等复杂开发场景设计。
针对办公场景,安索普优化了 Claude 对办公工具的适配能力:在 Excel 中,模型能更高效地完成多步骤复杂操作,包括非结构化数据的处理与分析;同时新增 PowerPoint 集成功能,该功能面向 Max、Team、Enterprise 级付费订阅用户开放研究预览。
安索普还特别强调了 Claude 在 Cowork 协作平台中的全新能力 —— 模型可在该平台中自主并行处理多项工作任务。依托这一平台,Opus 4.6 能融合信息检索、数据分析、数据结构化处理及文档协作等多种能力,可高效支撑多任务并行的智力工作及复杂的办公协作场景。
针对开发者群体,安索普推出了自适应思考机制:模型可自主判断任务场景是否需要启用 “深度推理模式”。同时,API 调用用户可自主选择计算资源的消耗等级,包括低、中、高(默认)、最高四档,能在任务输出质量、响应速度与调用成本之间实现灵活平衡。
此次公测版本还新增上下文压缩功能:当上下文用量接近令牌上限时,模型会自动对历史上下文进行总结并替换原内容,确保 Claude 能持续处理长周期任务,避免会话因上下文超限被强制终止。
目前,Claude Opus 4.6 已面向 claude.ai 平台的 Pro、Max 级付费订阅用户开放,同时也可通过 API 调用及主流云平台使用。该模型的 API 调用定价保持不变:输入令牌每 100 万收费 5 美元,输出令牌每 100 万收费 25 美元。