OpenAI与字节跳动同日发布AI新品：o3、o4-mini与豆包1.5深度思考模型谁更胜一筹？-模具钢网

头图 | 视觉中国

最近几天，AI赛道挤满了新品。

4 月 17 日凌晨，OpenAI 首先将预热了很久的 o3 和 o4-mini 正式推向外界。它凭借“用图像思考”的能力，迅速占据了热搜的头条位置。

几个小时后，在杭州，字节跳动旗下的火山引擎面向企业市场发布了豆包 1.5 深度思考模型。同时，对文生图模型进行了 3.0 升级，对视觉理解模型也进行了升级，并推出了 OS Agent 解决方案以及 AI 云原生推理套件，这些都是用于企业客户构建和部署 Agent 应用的。

其中，字节的首款推理模型是豆包 1.5 深度思考模型，它具备“边想边搜”的能力，并且借助视觉推理能力，能够综合理解图片中的各类信息。官方介绍，目前这款模型在人类评估方面的表现比 DeepSeek R1 高出 8%。这款模型采用 MoE 架构，在总参数量为 200B 时，激活参数仅为 20B。在训练和推理成本方面，它相比同类模型能够降低 50%。

其实，豆包在对推理模型的响应上，稍慢了一拍。

去年 9 月，OpenAI 发布了 o1 模型，开启了推理模型的序幕。今年年初，DeepSeek R1 凭借超低的训练成本和优异的性能表现，把推理模型的热度推向了高潮，一下子改变了大模型领域的竞争格局。国内外的大厂巨头以及 AI 初创企业都迅速采取行动，有的选择自研推理模型，有的接入 DeepSeek，都在不断地发力……

字节在这方面表现出了迟疑。然而，这似乎与字节一贯的风格相符，它虽然不是最早开始行动的，但一旦开始行动，就会以饱和式的方式加速挺进，其中最明显的体现就是在豆包大模型背后的火山引擎上。

在短时间内把大模型带入了“价格战”白热化的阶段。

12 月份在半年后到来，火山引擎再度加快步伐，推出了豆包视觉理解模型，并且又以 0.003 元/千 tokens 的价格、低于行业 85%的价位而引起关注。在那个时候，官方表明，12 月豆包大模型的日均 tokens 使用量超过了 4 万亿，与 5 月发布时期相比增长了超过 33 倍。

这一次，数据又有了新的刷新。火山引擎总裁谭待称，到 2025 年 3 月底的时候，豆包大模型每天的 tokens 调用量达到了 12.7 万亿，与发布之初相比增长了超过 106 倍。

IDC 发布的《中国公有云大模型服务市场格局分析，1Q25》数据显示，另外，火山引擎以 46.4%的市场份额处于领先地位，位居第一，并且成为企业落地大模型时的首选平台。

此次，模型发布之后，虎嗅等媒体与谭待展开了交流。他向大家分享了火山引擎这几个月所发生的变化，以及当下大模型领域的新思考。以下是交流的实录，其中部分内容有所删减。

目前市场对云服务的需求有哪些改变呢？具体又提出了哪些新的需求呢？

谭待认为可以将这个问题宽泛地理解为在 AI 时代大家对云的要求是什么。

传统的云是随着互联网而发展起来的。在那个时候，云原生很多是互联网应用，像 web 和 APP 等，这些应用在实践中涉及到中间件、数据库、容器等方面。当时是人通过编写软件规则、中间件等来实现对业务的抽象。而现在，范式发生了变化，是利用“数据+模型”来自动解决更多的问题。在这种情况下，大家对云的需求越来越多，并且催生出了新的产品，我们将这类产品称作 AI 云原生。

原来的云原生是为了顺应互联网的发展。现在的 AI 云原生是为了契合 AI 和 Agent 的发展需求。

云厂商首先需要具备更好的模型且成本更低，多模态是更好模型的一种表现形式，但这只是其中一部分。在 AI 应用从聊天、信息处理发展到 Agent 的过程中，需要更多的解决方案。例如今天发布的 OS Agent，它需要 Agent 去对电脑、手机进行操作，这就离不开电脑和手机的相关组件 Sandbox 以及能够操作界面的模型。

此外包含强化学习框架、安全保障以及底层数据处理等方面。未来，火山引擎会围绕 AI 云原生，在存储方面推出一系列产品，在计算方面推出一系列产品，在数据方面推出一系列产品，在安全方面推出一系列产品，在新的中间件如 Sandbox 等方面推出一系列产品。

刚才你提及了 Agent，今年还被称作 Agent 元年，许多厂商像字节等都在探寻 Agent 的应用场景，那么从火山引擎的立场出发，怎样看待 Agent 市场的机遇呢？

谭待认为不能简单地将其称为押注（Agent）。随着 AI 的不断发展，聊天和信息处理仅仅是其中的一小部分。要想真正为各个行业带来变革，Agent 是一条必经之路。如果无法做好相关工作，就难以实现 AI 的社会和经济价值。

我认为 Agent 主要有垂直类 Agent 和通用型 Agent 这两种类型。火山引擎会针对垂直类 Agent，依据自身的优势领域展开探索。例如之前推出了数据 Agent，通过构建数据飞轮，把数据处理能力发挥到了极致。我们会在这类垂直领域打造自己的 Agent 产品。这次提到的 Trae 也是如此。数据和代码属于垂直领域，并且非常基础。对于这类垂直 Agent，我们会参与开发。

通用型 Agent 能够操作电脑以及手机等设备，其应用场景既包括企业内部，也涵盖个人领域或特定领域，并且需要依据不同的场景进行专门的制定。对于火山引擎而言，更为重要的是搭建起基础框架，同时提供好用的工具。我们推出了 OS Agent 解决方案，通过新的 AI 云原生组件、SandBox 以及新模型，使得开发者和企业能够更便捷地构建自己的通用 Agent，这是火山引擎未来的一个重要发展方向。

现在可以看到，在 Agent 的布局方面，有字节这样的大厂。同时，也有发布 Manus 的 Monica 这类初创企业。那么，在你看来，谁在这一领域的机会更大呢？

谭待表示，机会的大小是由企业的创新能力所决定的，而不是由企业规模决定的。因此，不能凭借公司的大小来进行判断，持续地保持创新能力才是最为关键的。

DeepSeek 的 R2 处于筹划阶段，或许不久之后就会推出。面对这样一个强劲的竞争对手，字节对于开源与闭源策略是如何看待的呢？

谭待称主要从火山引擎的角度进行回答。其一，对于模型而言，开源或闭源并非关键所在，关键在于优劣。因为模型数量繁多，并非所有都具有很大影响力，质量才更为关键。无论是去年还是今年，业界一直处于你追我赶的态势，例如 17 日凌晨 OpenAI 发布了 o3 和 o4-mini，与字节出现了“撞车”的情况（面带笑意）。

我认为竞争是很棒的事。倘若将当前的 AI 发展视作一场马拉松，或许此刻才跑了 500 米。大家在竞争的过程中会相互推动。对于技术以及行业应用而言，都能借此实现快速发展。而竞争的关键在于能否把模型做好，它与开源和闭源的关联不大。

提问：那在后续的商业化上有什么规划？

谭待提到商业模式的影响时，从火山引擎的角度来看，我们自身是云厂商，目标是成为 AI 时代最好的云。要把最好的模型提供给大家，其核心有两点：一是把基础设施做好，实现 AI 云原生；二是提供最好的模型以及模型上的各种应用。此次我们推出了 OS Agent 这一层，它更偏向于 Agent 这样的模型。

当我们的云原生工作完成后，使用者和企业用户既能在其上使用豆包，也能使用开源模型。刚才提到了 DeepSeek，它推出之后，在所有云厂商中，火山引擎对其适配的效果是最好的。据我所知，在市面上的第三方使用 DeepSeek 云服务时，选择火山引擎的数量是最多的。因此，对于火山引擎而言，拥有的好模型越多越好。

预估未来 2 年火山引擎的大模型 tokens 调用情况是怎样的呢？还会继续保持近百倍的增长吗？

谭待：对于技术发展而言，人们通常会“短期高估、长期低估”。

从长期角度而言，存在百倍乃至更高增长的可能性。然而，究竟是 2 年还是 3 年实现，最为关键的因素在于模型是否会有重大突破。去年至今年，调用量增长迅速，原因在于豆包模型有几个重要突破：其一，最基础的聊天以及信息处理能力得到提升，并且成本有所下降；其二，今年推出了深度思考功能，这同样是一个突破。往后发展存在很多关键节点，例如视觉推理能否做得更出色，以及 Agent 相关技术能否取得更显著的进展。

每一次大的模型（技术）突破都必定会引发一次大的变化。然而，对于在 2 年内能否再次增长 100 倍，我们应该保持谨慎且乐观的态度。

目前火山引擎在对内支持方面的比重是多少？在对外扩张方面的比重又是多少？接下来在团队扩招方面有没有相关计划？

谭待称：火山引擎方面，其内部有很多业务是依托火山平台的，像抖音等产品就是如此。并且，火山引擎还对外提供支持。从一开始成立的时候起，他们就一直坚持技术做到内外统一，如此一来，既能够保障对内的服务，又能够把对外的支持做好。我们通过技术和资源复用，能够为内外客户提供性价比更高的服务。比如我们的 MaaS 和云服务，其性价比优势就源自技术和资源复用。并且，在实现统一之后，就无需再纠结资源分配是偏向内部还是外部，因为技术需求基本是一致的。像全球优秀的云服务提供商（如 AWS）也是按照这样的方式运作的。

关于业务扩张，我们会根据业务增长情况进行规划。

一方面，对于与规模相关的业务，比如要服务更多的客户，就需要扩充销售团队，并且增加解决方案以及客户成功经理，这样这部分的人员就会相应地增加。另一方面，产品研发更加注重质量。当前 AI 正在改变各个行业，我们也在思考怎样借助 AI 来提升自身产品研发和维护的效率。我们内部会使用 Data Agent 来进行数据分析等工作。火山引擎要成为 AI 原生且在 AI 实践方面成为典范，唯有如此，才能够助力客户和开发者实现 AI 转型。

本文来自虎嗅，原文链接：

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275548.html

OpenAI与字节跳动同日发布AI新品：o3、o4-mini与豆包1.5深度思考模型谁更胜一筹？

相关推荐

联系我们