1. 首页>>分享

腾讯混元T1正式版发布:强推理模型升级,吐字速度达60~80token/s

作者| 程茜

编辑| 漠影

3 月 22 日,智东西进行了报道。昨夜,腾讯把混元大模型系列的深度思考模型进行了升级,升级后的模型为混元 -T1 正式版。

T1 是腾讯自主研发的模型,它具有很强的推理能力。该模型的吐字速度能够达到每秒 60 到 80 个 token。在实际生成效果方面,它的表现远远快于 DeepSeek-R1。

图片

今年 2 月中旬,腾讯元宝 APP 上线了混元模型。这个混元模型的前身是基于混元中等规模底座的混元 T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。

T1 正式版以腾讯混元 3 月初发布的业界首个超大规模 Hybrid-Transformer-Mamba MoE 大模型 TurboS 快思考基座为基础,相较于 T1-Preview 而言。它通过大规模后训练,扩展了推理能力,并且进一步与人类偏好相契合。这也是工业界首次将混合 Mamba 架构无损应用于超大型推理模型。

图片

多个公开数据集的评测结果表明,在 MMLU-pro 指标上,T1 与 R1 基本持平或略超;在 CEval 指标上,T1 与 R1 基本持平或略超;在 AIME 指标上,T1 与 R1 基本持平或略超;在 Zebra Logic 指标上,T1 与 R1 基本持平或略超;且这些指标涉及中英文知识以及竞赛级数学、逻辑推理。

目前,T1 在腾讯云官网上线了。它的输入价格是每百万 tokens 1 元,输出价格是每百万 tokens 4 元。其输出价格是 DeepSeek 标准时段价格的 1/4,并且与 DeepSeek 优惠时段的价格一致。

图片

DeepSeek API价格

体验地址:#/chat/hy-t1

Hugging Face地址:

GitHub地址:

生成速度比 DeepSeek-R1 还要快,无论是复杂指令,还是长文摘要,亦或是角色扮演,都能够胜任。

在知识问答的场景当中,腾讯混元研究团队将 T1 的生成效果与 DeepSeek 的生成效果进行了对比。

第一个提示词为“醋酸乙酯能与水混合吗”。能够看出,T1 与 DeepSeek-R1 的整体生成结果在长度方面相近,并且结果也相近,然而,T1 的生成速度明显更快。

理科数学推理是第二大考验难题。在这一问题中,对模型的限制条件较多,思维过程也更长。从输出结果方面来看,T1 和 DeepSeek-R1 生成的结论是一致的,并且速度上仍然是 T1 更快。

第三大难题考查的是复杂指令的跟随能力。让 T1 对出下联,而提示词中给出的上联是“深深浅浅溪流水”。难点在于模型需遵循一致的三点水偏旁,且前四个字要为 AABB 结构。在 T1 的思考过程中,它准确地分析出了上联的特点,经过多次错误尝试后给出了答案:“洋洋洒洒波涛涌”。

第四大难题是通用任务,提示词为开放问题“生成一个朋友圈文案,主题是漫漫人生路”。此问题中未给出明确的风格指令要求,属于开放性问题。

T1能够充当生产力工具,将有助于提升用户的工作效率。下一个演示的内容是 T1 具备长文总结摘要的能力。

针对微软收购暴雪的新闻报道约 4000 字,T1 需总结文章内容并提炼出多个关键数字。

图片

最后一个演示是针对模型的角色扮演能力展开的。提示词是“请扮演李白,语气要符合李白的特征,猜一个字谜:告状无效”。T1 在思考过程中着重对这个字谜进行了分析,当得出结果为“皓”之后,便以李白的口吻输出了答案,并且还赋诗一首。

二、多项测试集结果对标R1,沿用混元Turbo S创新架构

混元-T1 在各类公开的 Benchmark 上,像 MMLU-pro、CEval、AIME、Zebra Logic 等,在中英文知识以及竞赛级数学、逻辑推理指标方面,基本与 R1 持平或者略超。同时,在腾讯内部的人工体验集评估中也能与之对标,尤其是在文创指令遵循、文本摘要、Agent 能力方面,略胜于 R1。

在数据集 MMLU-PRO 上,用于测试基座模型对广泛知识理解的记忆和泛化能力,T1 的得分仅次於 o1。在 CEval、AIME、Zebra Logic 等公开基准测试中,这些测试涵盖中英文知识以及竞赛级的数学和逻辑推理,T1 的表现与 R1 基本相同或者略微超过 R1。

图片

图片

从技术角度而言,混元 T1 正式版把混元 Turbo S 的创新架构给沿用了下来。它采用了 Hybrid-Mamba-Transformer 融合模式,并且这在工业界是首次将混合 Mamba 架构无损地应用到超大型推理模型中。这种架构能够降低传统 Transformer 架构的计算复杂度,还能减少 KV-Cache 内存的占用,同时也能降低训练和推理的成本。

TurboS 在长文本推理方面具有长文捕捉能力,这种能力能够有效应对长文推理中的上下文丢失以及长距离信息依赖难题。Mamba 架构能够专门对长序列处理能力进行优化,并且通过高效的计算方式,在确保长文本信息捕捉能力的同时,还可以降低计算资源的消耗,从而使得在模型处于相同部署条件下,解码速度能够快 2 倍。

在模型后训练阶段,腾讯混元研究团队把 96.7%的算力用在了强化学习训练上,其重点在于提升纯推理能力以及优化对齐人类偏好。

数据方面,T1 的高质量 Prompt 收集主要聚焦于复杂指令的多样性以及不同难度分级的数据。研究人员以世界理科难题为基础,收集了包含数学、逻辑推理、科学、代码等领域的数据集,这些数据涵盖了从基础数学推理到复杂科学问题解决的各种问题。接着,研究人员结合 ground-truth 的真实反馈,以此来确保模型在面对各类推理任务时能够有良好的表现。

在训练方案方面,T1 逐步提升数据难度的方式是采用课程学习,并且阶梯式地扩展模型上下文长度,这样既能使模型的推理能力得到提升,又能让模型学会高效利用 token 进行推理。

研究人员在训练策略方面,参考了经典强化学习中的数据回放策略以及阶段性策略重置等策略。通过这些参考,模型训练的长期稳定性得到了提升,提升幅度在 50%以上。

在对齐人类偏好的阶段,它采用了一种反馈方案,即 self-rewarding(利用基于 T1-preview 的早期版本来对模型输出进行综合评价和打分)与 reward mode 相结合的统一奖励系统。通过这个方案来指导模型进行自我提升。

结语:腾讯混元模型迭代加速

腾讯混元模型系列在今年步入了快速迭代的时期。它陆续推出了腾讯混元深度思考模型 T1 以及自研的快思考模型 Turbo S。在此之前,混元 Turbo S 在技术突破方面取得了成果,实现了首字时延降低 44%,并且已经被应用于腾讯元宝等腾讯的内部产品。

腾讯混元深度思考模型 T1 预览版此次已发布,且早已上线腾讯元宝。由此可见,腾讯内部的业务和场景已全面接入混元系列大模型能力,像腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。

腾讯混元团队在此基础上正在进行新的研究探索,努力找到能够降低大模型幻觉的新方法,同时也在探寻降低训练成本的新解题思路。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275061.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息