1. 首页>>分享

Anthropic发布Claude 3.7 Sonnet:首款混合推理模型,提供即时与扩展思考模式

昨晚,Anthropic 要发布新模型的消息在 AI 社区开始广泛传播,然而这并非是人们期待中的 Cl2227e65e54f2a355efbf92c68513c00c51013f32cf9c734578a6c945b1413d1ude 4.0,而是 3.7 Sonnet 版本。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手__全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

图源:

今天凌晨,Anthropic 的新旗舰模型按时到来。它正式发布了到目前为止最为智能的模型,同时也是市面上首款混合推理模型,名为 Claude 3.7 Sonnet。

_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

Claude 3.7 Sonnet 能够产生几乎是即时的响应,也能够向用户展示扩展的以及逐步的思考。Anthropic 称,有“一个模型,两种思考方式”,也就是标准思考模式和扩展思考模式。并且,API 用户还可以对模型的思考时间进行细致的控制。

Anthropic 在发布 Claude 3.7 Sonnet 之后,还推出了用于智能编码的命令行工具 Claude Code。此工具目前以有限的研究预览版本的形式被使用,能够让开发人员直接从他们的终端把大量工程任务委托给 Claude。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_

Anthropic 在编码方面对 Claude.ai 的编码体验进行了改进。其 GitHub 集成现在已在所有 Claude 计划中提供,这样一来,开发人员就能够把他们的代码存储库直接与 Claude 连接起来。Claude 会深入了解个人、工作以及开源项目。通过这样的了解,它将成为用户在 GitHub 项目中进行修复错误、开发功能以及构建文档等工作的更强大合作伙伴。

因此,Claude 3.7 Sonnet 在编码和前端 web 开发方面具有功能与改进,这使它成为 Anthropic 到目前为止最好的编码模型。

目前,新模型 Claude 3.7 Sonnet 能够通过所有的 Claude 计划来使用,这些计划包括 Free、Pro、Team 和 Enterprise,同时也可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 来使用。除了免费用户之外,所有其他用户均可体验扩展思考模式。

Claude 3.7 Sonnet 在标准和扩展思考模式下,其价格与 Claude 3.5 Sonnet 相同。每百万输入 token 的价格是 3 美元,每百万输出 token 的价格是 15 美元,这里的价格包含思考 token。

一位网友评价道,“Anthropic 的每次发布都能让人露出微笑,并且能让人感到兴奋!”

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手__全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

最强 Claude 3.7 Sonnet

让前沿推理触手可及

Anthropic 表示,它开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型存在差异。人类会使用单个大脑来进行快速反应和深度思考,Anthropic 觉得推理应当体现前沿模型的综合能力,而非仅仅是完全独立的模型。这种统一的方式能够为用户带来更无缝的体验。

Claude 3.7 Sonnet 遵循上述理念,从而形成了诸多独有优势。

Claude 3.7 Sonnet 首先它既是普通的 LLM ,同时也是推理模型。你能够选择在什么时候希望模型正常进行回答,以及在什么时候希望它在回答之前进行更长时间的思考。在标准模式之下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的一种升级版。在扩展思维模式下,它会先进行自我反思,然后再回答问题,这样就能提升它在数学、物理、遵循指令、编码以及许多其他任务方面的表现。Anthropic 察觉到,在这两种模式下,模型的提示词的工作方式是相近的。

其次,使用 API 调用 Claude 3.7 Sonnet 时,用户能够控制思考预算。用户可以告知 Claude 思考的 token 数量不超过 N 个。对于任意的 N 值,其输出被限制为 128K 个 token 。这样就使得用户可以在速度(以及成本)与答案质量之间进行权衡。

第三,Anthropic 在开发自家的推理模型时,对数学和计算机科学竞赛问题的优化力度较小。它将重点转移到了更能体现企业实际使用 LLM 方式的现实任务上。

我们来看 Claude 3.7 Sonnet 的基准测试结果。在 SWE-bench Verified 这个评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集上,Claude 3.7 Sonnet 达到了 SOTA 性能,它比 Claude 3.5 Sonnet 强很多,也比 OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1 都要优秀得多。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_

在 TAU-bench 这个评估 LLM 在复杂真实场景中用户与工具交互能力的基准测试平台上,Claude 3.7 Sonnet 达成了 SOTA 性能。它的表现超过了 Claude 3.5 Sonnet 以及 OpenAI 的 o1。

_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

Claude 3.7 Sonnet 在指令遵循方面表现出色,在通用推理方面表现出色,在多模态能力方面表现出色,在智能编码方面表现出色。扩展思考在数学方面实现了显著提升,扩展思考在科学方面实现了显著提升。但 Claude 3.7 Sonnet 在一些方面依然不及 OpenAI 的 o3-mini (high),Claude 3.7 Sonnet 在一些方面依然不及 Grok-3 Beta。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手__全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

可以看到,Anthropic 对于 Claude Sonnet 3.7,重点放在了编码能力方面,而其他领域看起来并不是特别重要。很明显,Anthropic 想要把 Sonnet 定位为编码 AI,并且它实际上已经是了。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手__全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

图源:

另外,Claude 3.7 Sonnet 除了传统基准之外。它在宝可梦(Pokémon)游戏测试中能够超越所有以前的模型。

Anthropic 已经开展了大量的早期测试,并且是与合作伙伴一起进行的。这些测试证明了 Claude 在编码能力方面处于全面领先的地位。

其中,Cursor 表明 Claude 再度成为现实世界编码任务的最优选择,无论是处理复杂的代码库,还是在高级工具使用方面,都有明显的改进。Cognition 发觉,Claude 在规划代码更改以及处理全栈更新方面,比任何其他模型都要优秀得多。

Vercel 强调了 Claude 在复杂代理工作流程里的精确度很高。Replit 已经成功地部署了 Claude,用于从头开始构建复杂的 Web 应用程序和仪表板,而其他模型没有进展。在 Canva 的评估中,Claude 一直能编写出具有卓越设计品味且可用于生产的代码,还大幅降低了错误。

Claude Code

智能编码让开发更便捷

2024 年 6 月之后,Sonnet 一直被全球开发者当作首选模型。今日,Anthropic 推出了它的首个智能编码工具 Claude Code,此为有限的研究预览版本,从而进一步强化了开发者的能力。

Claude Code 在功能方面是一个积极的协作者,它能够搜索代码并进行阅读,还可以编辑文件,能够编写和运行测试,也可以提交和推送代码至 GitHub,同时还能使用命令行工具。

我们来看下它的几个使用示例,比如解释项目结构:

_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

编写测试:

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_

构建应用:

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_

Claude Code 虽是一款早期产品,但对于 Anthropic 团队而言已不可或缺,尤其可用于测试驱动开发,可用于调试复杂问题,还可用于大规模重构。

在早期测试阶段,Claude Code 具备这样的能力,即能够一次性完成那些通常需要 45 分钟以上通过手动工作才能完成的任务。这样一来,就减少了开发所耗费的时间以及开销。

Anthropic 计划在接下来的几周内,依据自身的使用情况持续对 Claude Code 进行改进。具体包括提升工具调用的可靠性,增添对长时间运行命令的支持,改善应用内的渲染效果,以及拓展 Claude 对其自身功能的理解。

Claude Code 的目标在于更深入地知晓开发人员运用 Claude 进行编码的方式,以此为未来的模型改进提供依据。当加入此预览版后,用户便能够使用 Anthropic 用来构建和改进 Claude 的那些相同的强大工具。

负责任构建与未来展望

Anthropic 对 Claude 3.7 Sonnet 展开了广泛的测试工作,同时也进行了评估。并且 Anthropic 与外部专家展开了合作,其目的是确保 Claude 3.7 Sonnet 能够符合自身的安全性和可靠性标准。

Claude 3.7 Sonnet 对有害请求和良性请求做出了更细致的区分。并且,相较于前代,不必要的拒绝降低了 45%。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_

CoT 忠实度评估结果。

Anthropic 在 Claude 3.7 Sonnet 的模型卡中,详细地对自身的负责任扩展策略评估进行了细分,同时也对其他 AI 实验室和研究人员应用于他们工作的情况进行了细分。另外,模型卡中概览了计算机使用所带来的新风险,其中包括快速注入攻击。它还解释了 Anthropic 是如何评估这些漏洞以及如何训练 Claude 来抵御和缓解这些漏洞的。

此外,模型卡研究了推理模型的潜在安全优势。同时,模型卡也研究了理解模型如何做出决策,以及模型推理是否真正值得信赖和可靠。

_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手_全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

系统卡地址:

Anthropic 认为此次发布的 Claude 3.7 Sonnet 和 Claude Code 具有重要意义,标志着 AI 系统向前迈出了一大步,开始朝着真正增强人类能力的方向发展。凭借其具备的深度推理能力、能够自主工作以及有效协作的能力,我们更加接近了 AI 丰富和扩展人类能力的那个未来。

Anthropic 展示了一个令人兴奋的发展图景。希望在 2025 年,Claude 能成为独立自主工作数小时的专家级智能体。到 2027 年,希望 Claude 能够解决人工团队花费数年才能解决的挑战性难题。

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手__全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/274496.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息