北京智谱华章推出GLM-Zero-Preview推理模型，强化学习技术助力复杂问题解决-模具钢网

12月31日，国内明星大模型初创公司北京智普华章科技有限公司推出了基于扩展强化学习技术训练的推理模型GLM-Zero-Preview，擅长处理数学逻辑、代码、需要深入推理的复杂问题。

GLM-Zero-Preview 是 GLM-Zero 的第一个版本。智浦表示，目前的GLM-Zero-Preview和OpenAI的o3模型还有很多差距。因此，未来将持续优化迭代强化学习技术，推出GLM-Zero正式版，将深度思维能力从数理逻辑拓展到更通用的技术。

与现有模型不同，GLM-Zero-Preview可以初步实现自主决策、问题分解，并在推理过程中尝试多种方式解决问题。团队发现，随着强化学习训练量的增加，模型在深度推理等方面的表现稳步提升。团队还在推理阶段深入探讨了模型的标度规律。随着模型能够思考的代币数量增加，需要更多的计算，模型给出的结果质量稳步提高，体现“自我反思和优化”。 “、分解复杂问题、尝试用不同方法解决问题”等能力，这些能力与人类的思维和决策过程类似。

_智谱发布推理模型初代版本_智谱发布推理模型初代版本

如何将 7、9、11、13 3 个数字相加得到 30？ GLM-Zero-Preview 可识别逻辑漏洞。

在逻辑推理方面，GLM-Zero-Preview擅长识别逻辑漏洞，可以模拟多种假设和可能性。例如，如何将 7、9、11、13 三个数字相加得到 30？ GLM-Zero-Preview可以识别图片中的数字。通过反思发现答案的关键在于9可以反转为6（6+11+13=30）。

在数学方面，GLM-Zero-Preview具有更强的归纳和演绎能力，可以快速处理复杂的数学运算，解答包括代数、微积分、概率统计等领域的问题。以2025年考研数学1为例，GLM-零预习分数为126分（总分150分），达到优秀研究生水平。 GLM-Zero-Preview可以提供详细的问题解决流程，帮助用户了解问题的核心思想。

GLM-Zero-Preview可以熟练使用多种编程语言，帮助开发者快速编写代码。能够快速识别代码调试中的错误并提供详细的修复建议。例如，您只需输入命令“帮我用html写一个有趣的第一人称射击游戏”，GLM-Zero-Preview就可以快速独立完成游戏。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/273808.html

北京智谱华章推出GLM-Zero-Preview推理模型，强化学习技术助力复杂问题解决

相关推荐

联系我们