1. 首页>>分享

五一节前阿里巴巴开源新一代通义千问模型Qwen3并发布8个版本

5月1日,《科创板日报》记者黄心怡报道,阿里巴巴在“五一”节前开源了新一代通义千问模型Qwen3,并且一下子开源了8个版本。

阿里千问大模型官网用“思深,行速”描述Qwen3,这意味着Qwen3是中国公司推出的首个混合推理模型,它在同一个模型里融合了“推理”与“非推理”模式,还能够依据不同问题选择“快、慢思考”。

图片

最新数据表明,阿里Qwen系列大模型的累计下载次数达到了3亿次,基于Qwen的衍生模型数量超过了10万个,在全球范围内排名第一,Qwen3发布后吸引了众多开发者进行使用和测评。

Qwen3提供了不同参数的模型版本,其中有2款30B的MoE模型,还有235B的MoE模型,另外还有0.6B、1.7B、4B、8B、14B、32B等6款密集模型。阿里方面表示,千问3的30B参数MoE模型,只需激活3B,就能达到上代Qwen2.5 - 32B模型的性能,千问3的稠密模型,例如32B版本的千问3模型,能够超越上一代Qwen2.5 - 72B的性能。

多名开发者告知《科创板日报》记者,此次发布的千问3系列里,小参数量模型表现出色。32B模型表现优异,小参数量取得了良好的效果,这对大模型应用研发人员或公司而言是一项福利。毕竟大参数量成本过高。就目前情况而言,32B性价比最高,235B相较于千问2.5提升不太显著,而32B能呈现出当前的效果着实不错 。

有业内人士猜测,千问3在小参数模型方面着力,主要是针对苹果生态做准备。之前,阿里董事局主席蔡崇信对阿里与苹果在手机上合作实现AI的传闻进行了回应并给予确认。今年4月有最新消息传出,苹果正在积极推进在国行版iPhone上引入AI功能的计划,且打算在2025年中期前让该功能在国行iPhone上出现 。

图片

▍并非全面碾压DeepSeek R1

Qwen3发布后,有媒体报道称其性能全面超越同样开源的DeepSeek R1 。然而,《科创板日报》记者留意到,每家大模型公司在公布自身大模型测评数据时,所采用的指标或许各不相同,或者仅公布自身得分较高的测评测试。所以,较为公允的第三方测评更具说服力。

著名华裔AI学者吴恩达的公司Artificial Analysis,对包括Qwen3和DeepSeek R1在内的大模型进行了测试,测试结果显示,Qwen3只是在某些指标上超越了DeepSeek R1,并非全面碾压。

在“GPQA钻石:博士级多学科”项目测试里,Qwen3 235B的测试结果是70分,该成绩与DeepSeek R1的71分相近;在“LiveCodeBench:编码能力”项目测试中,Qwen3 235B的测试结果为71分,此成绩高于DeepSeek R1的62分;在“MATH - 500:高难度数学”项目测试中,Qwen3 235B的测试结果是93分,低于DeepSeek R1的97分成绩;在“MMLU:通用知识基准”测试中,Qwen3 235B的测试结果为83分,与DeepSeek R1的84分接近;在“AIME2024:数学推理中等挑战,泛化能力参考”项目测试中,Qwen3 235B的测试结果是84分,高于DeepSeek R1的68分成绩。

因此,业内普遍认为,从总体情况来看,Qwen3推理模型的整体表现稍微优于R1,然而与R1相比并没有太大的突破,还达不到“全面碾压”的程度 。

▍小参数模型远超预期

另一名开发者向《科创板日本》记者透露,此次千问3系列中,超大参数模型未达预期,然而小参数模型却远超预期 ,其表示“4B模型在数学能力方面着实让我感到惊讶” 。

小参数量模型的特点是能够主要用于端侧部署,4B模型可用于手机端,8B模型可用于电脑和汽车端侧,32B模型可用于企业大规模部署,它也适合有条件的开发者上手。

开放传神(OpenCSG)联合创始人陈冉觉得,通义大模型的出现充分证实了大模型领域的金律“模型天天在变,不变的是数据沉淀”,这也再度表明开源是技术创新的关键所在。在技术方面,仍在持续努力推进,目标是降低成本、提高效率,种类较为齐全,不过核心创新点还有待进一步观察。

《科创板日报》记者留意到,千问3发布后,上下游供应链迅速展开适配与调用工作,英伟达、英特尔、联发科、AMD等众多头部芯片厂商都纷纷对千问3进行适配 。

《科创板日报》记者从英特尔处得知,英特尔在车端舱内已完成对新发布的千问3系列模型的匹配。国产芯片厂商海光信息宣布,其DCU完成了对Qwen3全部8款模型的适配与调优,这些模型覆盖235B、32B、30B、14B、8B、4B、1.7B、0.6B各种参数。

算力成本降低,性能得到提升,业内分析普遍觉得,千问3为即将来临的智能体Agent以及大模型应用的爆发给予了更好的支撑。阿里云智能集团副总裁霍嘉在接受《科创板日报》采访时讲道,“模型推理模型能力持续提高,致使当前在业内存在共识,今年会是AI应用爆发的真正元年。”

▍通用Agent在工程和技术两个方面仍面临挑战

华创证券在对千问3大模型进行评价时表示,Agent训练与落地成了AI+叙事的下一个重点。天风证券觉得,AI Agent市场规模有超过一万亿的可能性,通义千问已推出多行业垂直生态体系,有成为B端Agent链主的希望。

《科创板日报》留意到,在第八届数字中国建设峰会举办期间,中国一汽正式推出企业智能体OpenMind,这是汽车行业首个针对全集团运营管理的AI Agent,它是基于阿里通义大模型构建而成的。

此外,中国电信、蚂蚁集团等也都纷纷发布了与智能体相关的平台,目的是加速AI Agent在政务、金融等领域落地。其中,中国电信正式发布了星辰行业Agent平台。而蚂蚁数科面向金融机构发布了智能体开发平台Agentar 。

不过,通用Agent在工程方面面临挑战,在技术模型方面也面临挑战 。一名业内人士表示 ,“实际上能够处理通用任务的并不多 。实际上能够处理复杂任务的也并不多 。这些产品要么不够通用 ,要么无法应对复杂的任务 。”

阿里云CTO周靖人,同时也是通义实验室负责人,近日在接受媒体采访时透露,今年在大模型领域,有两个相对确定的进展,属于两条主线。其一,在模型能力方面,会继续在类人思考以及多模态方面取得提升。其二,模型和底层云计算系统将实现更深度的结合,能够同时提升训练和推理效率,进而让模型更加好用、更加普及。

在谈到DeepSeek R1的时候,周靖人说道,DeepSeek具备算力,拥有Infra层,也有模型,然而却算不上是一个完整的云服务 。“我们有一个核心的认识,那就是大模型的发展和云体系的支撑是无法分开的。”

谈到国内外大模型竞争对手之间相互追赶的情况,他觉得,市场空间非常大,欢迎大家一同来推动AI产业的发展 。关于谁处于领先地位,他讲道:

“还是看市场反馈,把选择权留给客户。”

(财联社记者 黄心怡)

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275784.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息