就在刚刚,Claude 3.7 Sonnet 正式发布。
Claude 是有史以来最智能的模型,它采用混合推理方式。它能够快速生成响应,同时也可以进行深入的逐步推理。
一个模型,两种思考模式。
Anthropic 发布了一款名为 Claude Code 的智能编程工具。
官方称,Claude 3.7 Sonnet 以及 Claude Code 意味着 AI 朝着真正增强人类能力的方向迈出了重要的一步。它们不但能够进行深入的推理,还能够独立地执行任务,同时也能够高效地协作,从而让 AI 在现实世界中发挥出更大的价值。
太长不看,省流版如下:
Claude 3.7 是全球首款双模式混合推理模型。它的标准模式能快速响应,而扩展思考模式可进行深度自我反思。在数学、物理和编程等复杂任务上,它表现得非常卓越。它注重实用导向,不会不必要地拒绝或减少 45%,并且强化了代码协作能力。
Claude Code 可以直接在终端对代码库进行理解和操作,它能够一次性完成人工编程任务,而这些任务如果由人工来做需要 45 分钟以上。它擅长测试驱动开发、复杂调试以及大规模代码重构,并且全面支持代码编辑、测试执行等核心开发流程。
全球首款混合推理模型发布,你的 Claude 会思考了
新发布的 Claude 3.7 Sonnet 引入了详细的逐步推理,同时也公开了“思考”过程。DeepS eek 推动了行业透明度的提升,这要感谢它的内卷。
人类能用同一个大脑既快速反应又深入思考,Anthropic 也认为推理能力不应依赖单独的模型。
最好是,一个模型搞定所有场景。
用户可以自由选择,要么让 Claude 3.7 Sonnet 快速作答,要么让其进行更长时间的深度思考。
在标准模式时,它是 Claude 3.5 Sonnet 的升级版;当切换至扩展思考(Extended Thinking)模式(可简单当作推理),它会在回答前进行自我反思,并且能大幅提升在数学、物理、指令理解以及编程等复杂任务上的表现。
从基准测试结果而言,Claude 3.7 Sonnet(扩展思维版)适合进行强逻辑推理以及数学任务。而 Grok 3 Beta 和 DeepSeek R1 在特定的任务,像推理以及数学竞赛方面,表现得更为出色。
DeepSeek R1 在数学解题能力方面表现最为突出,其得分达到 97.3%。并且,它在其他任务上也有着良好的表现。
在推理模型的优化进程里,Anthropic 降低了对数学以及计算机科学竞赛类问题的重视程度,而是将精力更多地集中在满足企业对于 LLM 的实际应用需求上。
在对 AI 解决真实软件问题能力进行评估的 SWE-bench Verified 基准测试里,Claude 3.7 Sonnet 取得了行业领先的水准。并且,此模型在 TAU-bench 测试中的表现较为良好,它的表现能胜过旧版本,也能胜过 OpenAI o1。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部进行的 Pokémon 游戏测试里,超越了之前的所有模型,并且展现出了更强大的决策能力和规划能力。
该模型现在适用于所有的 Claude 订阅计划,其中包含免费版。它也适用于专业版、团队版和企业版。同时,还可以通过 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 来进行访问。
值得注意的是,所有平台除了免费版之外,都支持扩展思考模式(Extended Thinking Mode)。
当使用 API 来调用 Claude 3.7 Sonnet 时,你能够告知 Claude 进行思考且思考的 token 数量不超过 N 个。对于任意的 N 值,其输出会被限制在 128K 个 token 以内。
使用任何模式时,定价都与前代模型相同。输入 100 万个 token 需收费 3 美元,输出 100 万个 token(包含思考过程中使用的 token)要收费 15 美元。
Claude 的编程能力一直以来都比较突出,正因如此,它成为了许多开发者的首选模型。现在,新发布的 Claude 3.7 Sonnet 使这个优势得到了进一步的强化。
Canva 公司确认该模型在上述各方面表现出色。
为优化用户体验,GitHub 的集成功能现已向所有订阅计划开放。开发者能够直接把代码库与 Claude 相连接,从而实现更高效的协作。
修复 Bug 时,Claude 3.7 Sonnet 能提供支持;开发新功能时,Claude 3.7 Sonnet 能提供支持;完善文档时,Claude 3.7 Sonnet 也能提供支持。它能为个人项目提供支持,也能为企业级 GitHub 代码库提供支持。
在安全性方面,Claude 3.7 Sonnet 与外部专家合作后,相比前代模型,据说能更精准地分辨恶意请求与正常请求,其不必要的拒绝情况减少了 45%,还能够给予更流畅的交互体验。
截取自 Claude 3.7 Sonnet 系统卡
代码写到一半有放弃的念头?那就试着将复杂的问题交给 Claude Code 吧。
Anthropic 推出了一款名为 Claude Code 的智能编程工具。目前,它仅以研究预览版的形式限量开放。
代码写到一半时想要放弃。开发者能够直接在终端里,把这些复杂的问题交给 Claude Code 去处理。
Claude Code 是一个能主动协作的 AI 编程助手,它可以搜索代码并进行阅读,能够编辑文件,还可以编写并运行测试,同时能够将代码提交并推送至 GitHub,并且可以使用命令行工具等。
Anthropic 官方介绍称,在早期测试阶段,Claude Code 具备一次性完成人工任务的能力,而这些人工任务通常需要 45 分钟以上。尤其在测试驱动开发(TDD)、调试复杂问题以及大规模重构等方面,它的表现较为突出。
Claude Code 具备直接理解开发者代码库的能力,并且能够借助自然语言命令来协助用户更高效地进行编码。它可以与开发环境实现无缝集成,无需额外的服务器,也无需进行复杂的配置,从而极大地简化了工作流程。
其核心功能包含编辑文件这一行为;能修复 Bug;可以回答关于代码架构和逻辑的相关问题;能够执行测试;可以修复测试错误;具备进行代码格式检查的能力;还能搜索 Git 历史记录;能够解决合并冲突;可以创建提交;也能够创建拉取请求等。
Anthropic 表示,在接下来的几周时间里,他们打算持续对 Claude Code 进行优化。他们的重点在于改进多个方面,比如提升工具调用的稳定性,支持能够长时间运行的命令,改善应用内的渲染效果,同时增强 Claude 对自身能力的理解。
这次发布预览研究版本,希望能深入了解开发者使用 Claude 进行编程的情况,以便为进一步优化未来的模型版本提供参考。
感兴趣的开发者在官方网站查看相关事项,指路
AI 发展速度太快,连起名都跟不上了?
X 网友使用了,但是其注意点存在偏差,一年前编写的越狱提示词依然可以使用。
询问 strawberry 中 r 的数量,Claude Sonnet 3.7 给出的答案是错误的,但官方似乎在这个问题中特意设置了一个彩蛋。不得不承认,官方很懂得如何玩梗。
知名博主 @rowancheung 率先使用了 Claude 3.7 Sonnet 。他对该模型赞誉有加,称其为世界上最优秀的编码 AI 模型。在收到一个简单指令后,他成功生成了一个类似 Minecraft 的游戏,并且这个游戏可以即刻运行。
耗费的推理 Token 数量越大,Claude 3.7 Sonnet 绘制的「彩虹独角兽」效果就越佳。
我们对 Claude 3.7 Sonnet 进行了简单的上手体验。
在模型选择栏进行切换并点击“Extended”,这样就能进入扩展思考模式。
烧一根不均匀的绳需一小时,怎样用它判断半小时呢?烧一根不均匀的绳,从开始烧到烧完总共要一小时。现在有好多条材质相同的绳子,那么怎样用烧绳的方法来计时一小时十五分钟呢?
一道简单的推理题,几乎要把 Claude 3.7 Sonnet 的 CPU 给烧得过热了。
你应该已经留意到,相较于 DeepSeek R1 所展示出的思考过程,Claude 3.7 Sonnet 所公开的思考过程呈现出相对客观的特点,并且缺乏个性化的表达。
然而,这是有意为之的设计。
Anthropic 没有对模型的思维过程进行标准角色方面的训练。它希望给予 Claude 最大的自由度,让其能够自主思考。然而,就如同人类的思维一样,这种自主思考可能会包含一些不完全正确或者尚未成熟的想法。
Anthropic 认为所谓的“思考”过程未必真实地体现了 AI 的内部决策逻辑。所以,Anthropic 未来会依据用户的反馈以及研究来决定是否继续公开 Claude 的思维链。
有趣的是,之前我们提到过,随着各家新模型陆续发布,各类版本号以及命名规则让人看得眼花缭乱。
去年 OpenAI 的 CEO Sam Altman 被问到公司产品的命名策略时,他坦诚自己相当头疼。Anthropic 的 CEO Amodei 表示,尽管 Claude 的命名方式在初期看起来还行,但随着模型快速地迭代和更新,所沿用的命名体系也变得难以应对了。
他指出,目前没有任何一家 AI 公司切实地“搞定命名”这一难题。大家都在竭力探寻更为简便且清晰的命名方式。这或许是 AI 巨头们不太容易达成的一种共识。
Anthropic 的首席产品官 Mike Krieger 今日在 X 平台披露了 Claude 3.7 Sonnet 的幕后命名细节。其内心经历的纠结过程大致如下
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/274473.html