众力资讯网

Opus 4.6 重塑软件公司的生产力结构

Apizo.io|把大模型,从“能用”变成“长期可用”凌晨 2 点,硅谷再度对轰:但这一次,模型不是主角凌晨 2 点,硅

Apizo.io|把大模型,从“能用”变成“长期可用”

凌晨 2 点,硅谷再度对轰:

但这一次,模型不是主角

凌晨 2 点,硅谷的两家 AI 龙头,又一次在同一时间窗口内出手。

一边是 OpenAI,另一边是 Anthropic。不同的是,这一次的关注重心,并没有完全落在“谁更强”上。

由于 Claude Opus 4.6 的发布时间略早,业界已经出现了大量解读与实测反馈;再加上此前我们已经多次拆解过 Codex 体系,这篇文章索性聚焦一个问题:

为什么 Anthropic 会把 Opus 4.6,押在“长时程 Agent”这条路上?

一个共识正在形成:

Opus 4.6,不再是聊天模型

综合 Anthropic 官方信息与多位一线使用者的反馈,Opus 4.6 在三个方面给人留下了非常深刻的印象:

• 长上下文中的信息定位能力

• 基于复杂信息的持续推理能力

• 专家级、跨阶段的复杂决策能力

ClaudeCode 的核心作者 Boris 用了四个词来形容 Opus 4.6:

更自主、更智能、运行时间更长、更加细致全面。

知名科技评论者 Ganpathi 博士则给出了一个更具象的判断:

这是首个真正意义上的“百万 token 级 Opus 模型”,能在大型代码库中长期稳定运行 agentic 任务。

值得一提的是,已经有开发者在 X 上晒出截图,成功在终端 Agent(如 OpenClaw)中运行 Opus 4.6——这意味着,它的射程已经明确覆盖 CLI / 工程 / 自动化系统。

模型定位发生变化:

为「长时程 Agentic 任务」而生

如果说过去两年大模型的叙事重点是“能力展示”,那么 Opus 4.6 的方向非常清晰:

它不是为了更聪明的对话,而是为了真实世界中长期运行的 Agent。

Anthropic 在官方材料中反复强调的关键词,不再是文理科、推理或参数规模,而是:

• 在复杂任务中 自主判断重点

• 在超长交互中 保持上下文一致性

• 稳定运行 agentic 工作流

• 在真实代码库与企业任务中 可控、可靠

一个非常直观的证据是:Anthropic 公布的 13 项核心 Benchmark 中,有 10 项直接指向 Agentic 能力,其余 3 项才是 GPQA、视觉推理和跨语种理解。

更重要的是,他们反复强调一句话:

“我们用 Claude 来构建 Claude。”

Opus 4.6 已经在 Anthropic 内部的工程、代码审查、研究与文档工作中长期运行,这个模型的目标用户,本身就是工程团队和知识工作者。

三个关键升级方向

1️⃣ Agentic 能力的系统性增强

Opus 4.6 在规划、分解与执行任务上的稳定性明显提升,能够在较少人工干预的情况下,持续推进复杂工作。

一组来自挪威央行投资管理公司的盲测数据颇具代表性:

在 40 项网络安全调查中,Opus 4.6 相比 4.5 38 次取得最佳结果。所有模型均在相同的 Agent 框架下运行,使用最多 9 个子代理、超过 100 次工具调用。

当然,真实用户反馈依然理性:自主性显著提升,但在噪声过滤和决策收敛上,仍有进一步优化空间。

2️⃣ 百万上下文,终于不是“技术花瓶”

长上下文不是新概念,但“能用”一直是问题。

在 MRCR v2 的 8-needle / 1M 测试中:

• Opus 4.6:76%

• Sonnet 4.5:18.5%

这意味着,Opus 4.6 不只是“装得下”,而是真的能在极长对话中 持续追踪、理解并调用关键信息,显著缓解了长期困扰大模型的上下文退化问题。

3️⃣ 推理机制从“强制展开”转向“按需使用”

通过 Adaptive Thinking + Effort 控制,Opus 4.6 的推理方式发生了结构性变化:

• 模型可以自行判断 是否需要深度推理

• 推理强度可细分为:low / medium / high / max

• 开发者不再只能在“全开或全关”之间二选一

这让质量、速度与成本之间,第一次出现了 工程级可调空间。

多项评测领先:

Agentic 编程能力登顶

在官方披露的评测中,Opus 4.6 多项达到或刷新前沿水平:

• Terminal-Bench 2.0:Agentic 编程第一

• Humanity’s Last Exam:多学科复杂推理领先

• GDPval-AA:在金融、法律等高价值任务中

• 比 GPT-5.2 高约 144 Elo

• 比 Opus 4.5 高 190 Elo

• BrowseComp:在线检索与信息定位第一

在根因分析、多语言编程、长期一致性、网络安全与生命科学等领域,Opus 4.6 表现尤为突出。

一个明显变化:AI 正在接近“可用的同事”

和前两年相比,Opus 4.6 的发布叙事明显变了。

少了参数与榜单,多了:

• 长期运行

• 团队 Agent

• 工程稳定性

• 安全与对齐

Anthropic 明确将 Agent 视为 一等公民,而不再是演示性质的实验功能。

尤其值得注意的是,在能力显著增强的同时,Opus 4.6 仍保持了极低的过度拒答率,并同步强化了安全探针与防御性应用,强调“让防守方先用好 AI”。

实测信号:

“可运行、可交互、可玩”

在公开视频实测中,Opus 4.6 被用于多项 零样本、高复杂度生成任务:

• 空战与舰船模拟

• 虚拟乐器

• 完整可编译的 C++ 游戏

其中,C++ 滑板游戏尤为突出:一次性生成近 2000 行代码,物理反馈、计分逻辑完整可运行。

Anthropic 还透露了一个内部案例:

使用 agent teams 构建一个 C 编译器,基本放手不管,两周后,竟然能在 Linux 内核上运行。

一个清晰的信号

随着 2026 年拉开序幕,AI 的竞争焦点正在发生变化:

从“单次回答多聪明”,转向“能否长期、稳定、可信地完成真实工作”。

这也意味着,大模型正在从“工具”,逐步蜕变为 可协作的同事。

遍地 Agent 的时代,已经正式开启。