Anthropic发布Claude 3.7 Sonnet：首款混合推理模型，提供即时与扩展思考模式-模具钢网

昨晚，Anthropic 要发布新模型的消息在 AI 社区开始广泛传播，然而这并非是人们期待中的 Cl2227e65e54f2a355efbf92c68513c00c51013f32cf9c734578a6c945b1413d1ude 4.0，而是 3.7 Sonnet 版本。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手__全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

图源：

今天凌晨，Anthropic 的新旗舰模型按时到来。它正式发布了到目前为止最为智能的模型，同时也是市面上首款混合推理模型，名为 Claude 3.7 Sonnet。

_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

Claude 3.7 Sonnet 能够产生几乎是即时的响应，也能够向用户展示扩展的以及逐步的思考。Anthropic 称，有“一个模型，两种思考方式”，也就是标准思考模式和扩展思考模式。并且，API 用户还可以对模型的思考时间进行细致的控制。

Anthropic 在发布 Claude 3.7 Sonnet 之后，还推出了用于智能编码的命令行工具 Claude Code。此工具目前以有限的研究预览版本的形式被使用，能够让开发人员直接从他们的终端把大量工程任务委托给 Claude。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_

Anthropic 在编码方面对 Claude.ai 的编码体验进行了改进。其 GitHub 集成现在已在所有 Claude 计划中提供，这样一来，开发人员就能够把他们的代码存储库直接与 Claude 连接起来。Claude 会深入了解个人、工作以及开源项目。通过这样的了解，它将成为用户在 GitHub 项目中进行修复错误、开发功能以及构建文档等工作的更强大合作伙伴。

因此，Claude 3.7 Sonnet 在编码和前端 web 开发方面具有功能与改进，这使它成为 Anthropic 到目前为止最好的编码模型。

目前，新模型 Claude 3.7 Sonnet 能够通过所有的 Claude 计划来使用，这些计划包括 Free、Pro、Team 和 Enterprise，同时也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 来使用。除了免费用户之外，所有其他用户均可体验扩展思考模式。

Claude 3.7 Sonnet 在标准和扩展思考模式下，其价格与 Claude 3.5 Sonnet 相同。每百万输入 token 的价格是 3 美元，每百万输出 token 的价格是 15 美元，这里的价格包含思考 token。

一位网友评价道，“Anthropic 的每次发布都能让人露出微笑，并且能让人感到兴奋！”

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手__全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

最强 Claude 3.7 Sonnet

让前沿推理触手可及

Anthropic 表示，它开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型存在差异。人类会使用单个大脑来进行快速反应和深度思考，Anthropic 觉得推理应当体现前沿模型的综合能力，而非仅仅是完全独立的模型。这种统一的方式能够为用户带来更无缝的体验。

Claude 3.7 Sonnet 遵循上述理念，从而形成了诸多独有优势。

Claude 3.7 Sonnet 首先它既是普通的 LLM ，同时也是推理模型。你能够选择在什么时候希望模型正常进行回答，以及在什么时候希望它在回答之前进行更长时间的思考。在标准模式之下，Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的一种升级版。在扩展思维模式下，它会先进行自我反思，然后再回答问题，这样就能提升它在数学、物理、遵循指令、编码以及许多其他任务方面的表现。Anthropic 察觉到，在这两种模式下，模型的提示词的工作方式是相近的。

其次，使用 API 调用 Claude 3.7 Sonnet 时，用户能够控制思考预算。用户可以告知 Claude 思考的 token 数量不超过 N 个。对于任意的 N 值，其输出被限制为 128K 个 token 。这样就使得用户可以在速度（以及成本）与答案质量之间进行权衡。

第三，Anthropic 在开发自家的推理模型时，对数学和计算机科学竞赛问题的优化力度较小。它将重点转移到了更能体现企业实际使用 LLM 方式的现实任务上。

我们来看 Claude 3.7 Sonnet 的基准测试结果。在 SWE-bench Verified 这个评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集上，Claude 3.7 Sonnet 达到了 SOTA 性能，它比 Claude 3.5 Sonnet 强很多，也比 OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1 都要优秀得多。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_

在 TAU-bench 这个评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上，Claude 3.7 Sonnet 达成了 SOTA 性能。它的表现超过了 Claude 3.5 Sonnet 以及 OpenAI 的 o1。

_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

Claude 3.7 Sonnet 在指令遵循方面表现出色，在通用推理方面表现出色，在多模态能力方面表现出色，在智能编码方面表现出色。扩展思考在数学方面实现了显著提升，扩展思考在科学方面实现了显著提升。但 Claude 3.7 Sonnet 在一些方面依然不及 OpenAI 的 o3-mini (high)，Claude 3.7 Sonnet 在一些方面依然不及 Grok-3 Beta。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手__全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

可以看到，Anthropic 对于 Claude Sonnet 3.7，重点放在了编码能力方面，而其他领域看起来并不是特别重要。很明显，Anthropic 想要把 Sonnet 定位为编码 AI，并且它实际上已经是了。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手__全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

图源：

另外，Claude 3.7 Sonnet 除了传统基准之外。它在宝可梦（Pokémon）游戏测试中能够超越所有以前的模型。

Anthropic 已经开展了大量的早期测试，并且是与合作伙伴一起进行的。这些测试证明了 Claude 在编码能力方面处于全面领先的地位。

其中，Cursor 表明 Claude 再度成为现实世界编码任务的最优选择，无论是处理复杂的代码库，还是在高级工具使用方面，都有明显的改进。Cognition 发觉，Claude 在规划代码更改以及处理全栈更新方面，比任何其他模型都要优秀得多。

Vercel 强调了 Claude 在复杂代理工作流程里的精确度很高。Replit 已经成功地部署了 Claude，用于从头开始构建复杂的 Web 应用程序和仪表板，而其他模型没有进展。在 Canva 的评估中，Claude 一直能编写出具有卓越设计品味且可用于生产的代码，还大幅降低了错误。

Claude Code

智能编码让开发更便捷

2024 年 6 月之后，Sonnet 一直被全球开发者当作首选模型。今日，Anthropic 推出了它的首个智能编码工具 Claude Code，此为有限的研究预览版本，从而进一步强化了开发者的能力。

Claude Code 在功能方面是一个积极的协作者，它能够搜索代码并进行阅读，还可以编辑文件，能够编写和运行测试，也可以提交和推送代码至 GitHub，同时还能使用命令行工具。

我们来看下它的几个使用示例，比如解释项目结构：

_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

编写测试：

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_

构建应用：

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_

Claude Code 虽是一款早期产品，但对于 Anthropic 团队而言已不可或缺，尤其可用于测试驱动开发，可用于调试复杂问题，还可用于大规模重构。

在早期测试阶段，Claude Code 具备这样的能力，即能够一次性完成那些通常需要 45 分钟以上通过手动工作才能完成的任务。这样一来，就减少了开发所耗费的时间以及开销。

Anthropic 计划在接下来的几周内，依据自身的使用情况持续对 Claude Code 进行改进。具体包括提升工具调用的可靠性，增添对长时间运行命令的支持，改善应用内的渲染效果，以及拓展 Claude 对其自身功能的理解。

Claude Code 的目标在于更深入地知晓开发人员运用 Claude 进行编码的方式，以此为未来的模型改进提供依据。当加入此预览版后，用户便能够使用 Anthropic 用来构建和改进 Claude 的那些相同的强大工具。

负责任构建与未来展望

Anthropic 对 Claude 3.7 Sonnet 展开了广泛的测试工作，同时也进行了评估。并且 Anthropic 与外部专家展开了合作，其目的是确保 Claude 3.7 Sonnet 能够符合自身的安全性和可靠性标准。

Claude 3.7 Sonnet 对有害请求和良性请求做出了更细致的区分。并且，相较于前代，不必要的拒绝降低了 45%。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_

CoT 忠实度评估结果。

Anthropic 在 Claude 3.7 Sonnet 的模型卡中，详细地对自身的负责任扩展策略评估进行了细分，同时也对其他 AI 实验室和研究人员应用于他们工作的情况进行了细分。另外，模型卡中概览了计算机使用所带来的新风险，其中包括快速注入攻击。它还解释了 Anthropic 是如何评估这些漏洞以及如何训练 Claude 来抵御和缓解这些漏洞的。

此外，模型卡研究了推理模型的潜在安全优势。同时，模型卡也研究了理解模型如何做出决策，以及模型推理是否真正值得信赖和可靠。

_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手_全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

系统卡地址：

Anthropic 认为此次发布的 Claude 3.7 Sonnet 和 Claude Code 具有重要意义，标志着 AI 系统向前迈出了一大步，开始朝着真正增强人类能力的方向发展。凭借其具备的深度推理能力、能够自主工作以及有效协作的能力，我们更加接近了 AI 丰富和扩展人类能力的那个未来。

Anthropic 展示了一个令人兴奋的发展图景。希望在 2025 年，Claude 能成为独立自主工作数小时的专家级智能体。到 2027 年，希望 Claude 能够解决人工团队花费数年才能解决的挑战性难题。

全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手__全球首个混合推理模型：Claude 3.7 Sonnet来袭，真实编码力压一切对手

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/274496.html

Anthropic发布Claude 3.7 Sonnet：首款混合推理模型，提供即时与扩展思考模式

相关推荐

联系我们