腾讯科技特约作者|晓静
编辑|萌萌
在2025年,全球范围内人工智能大型模型的发展轨迹明显显现出多样化的特点。
在全球范围内,OpenAI致力于打造“超级模型”与“万能平台”的结合;Gemini致力于加强安卓生态建设,实现端云协同和多模态技术的领先地位;Anthropic专注于开发安全可靠的人工智能及Agent技能;xAI利用社交数据来优化Grok算法;而Meta虽然坚持开源策略,但发展速度有所减缓。
国内市场竞争同样激烈,那些拥有资金、入口和场景的科技巨头,持续加大在基础模型能力上的投入,并且开始将AI模型的功能与自身的业务场景相结合。在众多明星创业公司中,DeepSeek致力于追求高性价比;智谱AI全方位布局;Kimi尝试涉足社交领域;百川专注于医疗行业;零一万物采取双轨并行策略;Minimax的海外产品Talkie月活跃用户数已突破千万。
成立仅两周年的阶跃星辰,在选择了模态全面覆盖的发展道路并坚守原生多模态的核心理念,其创始人姜大昕曾多次明确指出:“多模态是通往通用人工智能的不可或缺之路。”
在过去的两年时间里,阶跃星辰推出了22款自主研发的基座模型,其中16款属于多模态类别。近期开源的Step1X-Edit图像编辑模型,其性能已达到同类开源模型的顶尖水平。因此,阶跃星辰在业界享有“多模态卷王”的美誉。针对这一称号,姜大昕表示:“我对于‘多模态卷王’这一称呼表示认同。”
自公司成立伊始,姜大昕的团队便绘制了一张描绘智能发展的蓝图。这一进程将被划分为模拟现实、探索未知以及总结规律三个不同的阶段。
姜大昕认为,目前AI模型的技术进步正经历着从模仿式学习向强化式学习的过渡期,借助强化式学习,机器能够提升处理复杂问题的能力,进而获得类似“系统二”的深度思考特质。
丹尼尔·卡尼曼,这位诺贝尔经济学奖获得者,在其著作《思考,快与慢》中提出了两个关键概念——系统一与系统二,这两个概念旨在阐述人类思维运作的两种不同模式。系统一涉及直观的思维过程,而系统二则要求我们有意地集中注意力进行缓慢的思考。在大模型的推理过程中,我们可以观察到它与系统二有着相似之处。
在此阶段,多模态模型的作用至关重要;AGI的宗旨在于模仿人类智能,而人类智能本身便包括了语言、视觉、空间、运动等多种形态;AI若要实现更深入的用户环境理解与自然交互,就必须具备听、看、说等综合能力。
然而,姜大昕强调,就发展阶段而言,多模态模型或许尚未见证到类似于“Transformer”的突破性框架的出现,甚至可能尚未达到GPT-1的早期水平。
在“探索世界”阶段,阶跃星辰特别重视智能终端与Agent的应用场景及形态;然而,只有当多模态理解生成的一体化模型出现,尤其是具备可扩展性的模型,人形机器人才能够具备泛化能力,Agent的能力也才能得到拓展。
目前全球是否已有模型能实现多模态理解和生成的一体化?姜大昕认为,GPT-4o或许属于这一类别,但它的可扩展性尚未明确。以Sora为首的视频生成技术已触及瓶颈,而下一代的突破需依赖于理解与生成的一体化。
多模态理解生成一体化模型的问世,标志着多模态模型领域迈入GPT时代,然而,目前这一领域尚处于技术开发的荒野。在这一技术荒野的探索过程中,每家AI初创企业都必须直面商业模式构建和盈利的实际挑战。
姜大昕对阶跃星辰未来的发展路径做了精炼的阐述,具体如下:他们致力于基础大模型的深入研究与开发;同时,充分利用多模态技术的独特优势,勇于探索行业前沿;此外,他们还在应用领域着手,通过智能终端Agent打造一个独特的生态系统。
技术发展趋势分析表明,以Sora为代表的新一代视频生成技术已接近其技术发展的顶峰,而下一代的重大突破则需建立在理解与生成相结合的基础之上。
商业模式挑选:“超级模型”与“超级应用”协同运作,模型的功能力决定了应用的最高界限,同时应用为模型提供了实际的应用场景和所需数据。
在AI时代,增长的道路可能不再遵循传统的投流模式,AI产品流量增长的策略可能与传统互联网大相径庭。DeepSeek并非唯一,哪吒2、黑神话悟空、Manus等众多产品同样并非依赖大规模的广告投放来吸引用户。
以下为对话内容精选:
为何多模态理解生成一体化模型如此重要?
公司自创立伊始便确立了将理解与生成相结合的发展路径,这一策略是否从一开始就已被确定?在这样一个颇具挑战性的技术前沿领域持续深耕,又会对商业运作产生何种影响呢?
姜大昕表示,自创立伊始,便已确立了这一发展路径。在他看来,模型的创新突破应先于商业化的进程,正如GPT-3问世在先,才有了GPT;同样,多模态融合与推理模型的出现,才是成熟Agent诞生的前提。
同样,必须首先实现多模态理解与生成的一体化,尤其是要确保这种一体化具备良好的可扩展性,只有这样,才能赋予人形机器人广泛的应用能力。
一体化技术的突破不仅提升了现有Agent的性能,还将在具身智能的广泛应用和世界模型的构建上开辟新的领域。对于端侧而言,掌握一体化技术确实有助于提升理解和生成能力,这对Agent的发展大有裨益,然而,其重要性远超于此。
从技术发展的角度来看,对生成与理解一体化的掌握,等同于语言模型在Transformer技术阶段的成就,甚至还要早于GPT-1。Transformer技术诞生于2017年,GPT-1则是在2018年推出,因此,这标志着在架构层面的一次根本性突破。
询问:该技术的演进路径是怎样的?是期望自主构建出具备多模态特性的“Transformer里程碑”,还是选择在他人取得突破后进行跟进?
姜大昕表示,公司内部正同时探索多条技术路径,由于无法预知哪一条能够取得成功。他直言不讳地提到,公司拥有丰富的技术人才储备,各个团队正依据自身判断进行尝试。我们自然期望能够实现技术突破,然而,唯有真正取得成功,这样的努力才具有价值。
在Transformer问世之前,自然语言处理领域已经存在多种技术路径,诸如RNN、LSTM等。然而,直至Transformer的诞生,人们才开始普遍认同其卓越性。如今,关于多种路径的探索,正如当年追求更高效架构的过程一般,终将迎来一个被广泛认可的解决方案。
有趣的是,自2017年Transformer问世以来,真正统治全局的并非OpenAI的GPT,而是Google的BERT。当时在自然语言处理这一领域,BERT的表现力远超GPT,堪称无敌。
GPT比BERT问世的时间要早几个月,然而并未获得相同的关注。Ilya Sutskever持有一种坚定的信念,即若没有生成,便无法真正理解。在当时,从实际效果来看,BERT的表现确实更为出色。即便是GPT-3问世,我们起初也仅认为它具有研究意义,因为它庞大而笨拙,似乎能做任何事情却又似乎什么都没做好,直到GPT的出现,我们的看法才发生了转变。
语言模型已走过这一阶段,视觉领域有望借鉴其经验。若视觉领域诞生了基于“Transformer”的模型,后续的发展趋势将自然而然,众人只需跟随语言模型所开辟的道路前行即可。
理解生成一体化模型实现的标志是什么?
提问:GPT-4o新版本是否已实现理解和生成一体化?
姜大昕表示,他们推测GPT-4o或许已经将理解和生成功能整合到了一个模型里,然而,他们尚不能肯定这种做法是否能够实现规模化应用。他们所追求的理解与生成相结合的模式,应当具备Transformer那样的扩展性,能够有效处理并预训练大量视频数据。
评估一个模型是否成功实现了理解与生成相结合的可扩展性,核心在于观察其是否具备预测后续帧内容的能力。
去年Sora问世之际,众多人士激动不已,然而我们内心实则颇为失落,因为我们的期望是看到对生成与理解融为一体的重大进展,而并非仅仅是一个能够生成视频的扩散模型。然而,回顾过去,这种想法也有其合理性,毕竟从多模态融合直接跳到理解与生成的一体化可能过于复杂,因此目前理解和生成两条路径正各自独立前行,相互推动。
Sora论文中,OpenAI阐述了利用视觉模型对数据进行标注的方法,这恰好是生成辅助理解的典型实例。
确保解决“预测下一帧”这一核心问题至关重要,否则后续的进展将会受到阻碍。
若一个模型具备预测下一帧的能力,其具体表现将如何显现?又有哪些具体标志可供验证呢?
姜大昕表示,首先,该系统需具备在接收到电影开头片段后,能够连续生成后续情节的能力,这些情节需具备逻辑性和物理规律性。这一功能是可检验的,它反映出系统在预训练方面的出色表现,所生成的内容不仅质量上乘,而且保持了一致性。
审视语言模型的发展轨迹,GPT-1仅能执行诸如情感分析、命名实体识别等单一任务;GPT-2试图将所有任务转化为生成任务,但成效不佳;而GPT-3则能够像小学生那样创作出连贯的段落。将这一进展类比至视觉领域,若一个模型能够产出10分钟连贯且合理的视频内容,那么我认为它已达到这一水平。
探讨:我们需洞察一个集生成与一体化于一体的多模态“GPT-4时代”,并了解其具备可扩展性(即能够扩展),那么这一时代究竟何时能够降临?
姜大昕指出,当前这个领域的进展速度难以预料。技术上的突破往往转瞬即逝。以推理模型为例,大家普遍认识到,基于模仿学习的大语言模型在解数学题方面存在一定的局限性,然而,具体的改进方法并不明确。直到o1的发布,人们才豁然开朗:思维链的实现竟然可以如此进行。
如何看待全球多模态领域的竞争格局?
请问能否协助我们分析多模态模型的市场竞争态势?目前阶跃模型在其中的地位是怎样的?构建一个能够理解和生成多模态内容的一体化模型,面临的主要挑战有哪些?是技术架构、算法设计,还是对高质量数据标注的需求?
姜大昕提到,在国际的多模态技术领域,OpenAI与Google的表现尤为突出。而Anthropic则专注于Agent的研究。X.AI似乎拥有不容小觑的潜在实力,他们不仅拥有优秀的人才,还有充足的资金和适用场景,或许正在伺机而动。至于Meta的Llama系列,近期的发展似乎略显迟缓。
在国内,企业大致可分为两大类:一类是诸如阶跃这样的全面型公司,它们涵盖了所有模态,既从事理解也进行生成,并注重技术的根基性,同时也在探索未来的架构;另一类则是聚焦于AIGC领域,比如专门从事视频创作或专注于音乐生成的企业。而阶跃的独特之处在于,我们并不仅限于单一模态或内容的生产,我们致力于在基础模型上实现跨代的技术飞跃。
关于理解生成一体化模型的壁垒,算法和数据、人才都很重要。
多模态模型在构建高维连续空间时遭遇了挑战。以自回归架构为例,它难以直接应对复杂的连续空间问题,这导致整个行业普遍转向使用扩散模型。扩散模型的实质在于通过逐步迭代的方式来构建最终结果,即若单步难以实现,则可分多步完成;然而,在将自回归机制与扩散模型实现深度结合的过程中,却面临着根本性的难题——这或许要求我们进行颠覆性的架构革新,比如将连续的空间分割成token,亦或是开创全新的模式。
这种创新不仅要求我们在算法设计上进行深入探究,而且伴随着在探索过程中可能出现的方向性错误,甚至有可能会完全颠覆现有的技术发展路径。
即便在架构实现重大突破之后,数据的质量和量级依然是至关重要的。这就像燃油汽车必须依赖汽油才能运转一样,即便是最先进的架构,若没有与之相匹配的多模态训练数据(例如精确对齐的图文、视频以及3D数据),其潜力也无法得到充分释放。为此,需要一支由顶尖人才组成的团队,在数据工程、标注体系以及训练策略等多个环节不断努力攻克难题。
每月均有新型模型问世,这会不会对某一特定模型的技术钻研造成影响?为何不集中资源攻克理解与生成相结合的技术,却要将精力分散到多个模态之中?
姜大昕表示,他赞同“多模太卷王”这一称呼。然而,他强调指出,尽管外界可能觉得公司每月推出一个新模型,但事实上这些模型分别采用了不同的技术路径。此外,公司的多模态布局相当全面,涵盖了语音、图像、视频以及音乐等多个领域。每一条技术路径都需要数月甚至长达半年的沉淀,方能推出一个模型。然而,当您将这些方向综合起来观察时,可能会感觉到我们新成果的发布频率较高。
关于为何不集中资源攻克理解与生成相结合的技术难题,这确实是一个值得深思的问题。我们同样抱有这一愿望,然而,实现理解与生成的一体化无疑是一项极为复杂的挑战。首先,若没有构建起强大的语言模型,那么所谓的理解便无从谈起,而目前语言模型已经发展至推理模型阶段;其次,若要实现视觉推理,就必须先具备视觉理解的能力;再者,理解与生成的一体化还要求具备生成能力。故而,并非是我们缺乏专注,实则执行这一任务本身便需依赖众多技能的协同。这便是跃进式发展的优势——凭借我们在各个领域均具备的强大实力,我们得以将这些能力整合,共同开拓新的研究领域。
在技术无人区探索中的商业化选择
阶跃提出了“超级模型+超级应用”的双重驱动战略。目前,众多大型企业正同时致力于应用开发与模型研究,与此同时,众多初创企业已摒弃了预训练大型模型。面对这样的形势,您觉得阶跃在通用大模型领域所面临的核心障碍是技术、应用场景,还是生态系统?
姜大昕表示,他将从几个不同的角度进行阐述。首先,我们为何执着于大型模型的研发工作?这是因为目前该领域正处在技术迅猛进步的关键时期。AI领域的变革速度之快,实在令人感叹不已。
去年之际,GPT-4被誉为极具威力的模型,让人感觉国内鲜有人能与之匹敌;Sora初现时,给众人带来了极大的震撼,但如今其神奇之处已有所减弱。或许到了明年,当我们回顾今天的技术进展,例如GPT-4o的图像编辑功能,也会显得不再那么令人称奇。在这个技术飞速发展的时代,阶跃公司不愿放弃其领先地位。
从实际应用的角度来看,我们始终坚信应用与模型之间是相互促进的。模型的能力决定了应用的最高水平,同时应用又为模型提供了实际的应用场景和所需的数据。尽管我们的产品形式可能会随着模型的进步而不断变化,但二者之间的这种相互依存的逻辑始终没有改变。
能否请您探讨一下今年在人工智能应用领域的显著变迁,行业关注的重心是否已从聊天机器人转移至智能代理?
姜大昕表示,在大型模型探索的初期阶段,由于这些基础的大型模型已经拥有了基本的功能和对话交流的能力,因此催生了一些基础的应用场景。
截至目前,得益于模型在多模态及推理方面的持续进步,智能体(Agent)这一概念逐渐受到关注。我们见证了众多新应用的涌现,例如深度搜索产品的问世,Google、OpenAI以及国内企业纷纷投身于“深度研究”领域,同时,诸如manus或flowith等通用智能体也应运而生。
阶跃的产品策略也随之调整,我们将更聚焦于Agent领域。
众多人工智能企业正借助网络时代的推广手段寻求业务扩张,对此您有何见解?
姜大昕指出,DeepSeek向我们传达了一个关键观点:在人工智能时代,投放流量的策略或许并不总是适用。尽管DeepSeek未曾大规模投放流量,但若放宽流量限制,其用户数量突破亿级将不是难题。
我认为在AI时代,我们有必要对产品流量的增长策略进行重新审视,这种模式或许与传统互联网的运营方式大相径庭。DeepSeek只是其中之一,还有哪吒2、黑神话悟空、Manus等众多产品,它们并非依靠大规模的广告投放来吸引用户。这种变化正在无声无息地发生着。
在考虑构建云端平台上的智能终端Agent生态系统时,我们为何倾向于扮演供应商的角色,而不是直接面向消费者,开发出类似于manus这样的产品呢?
姜大昕表示,鉴于智能终端Agent尚属新兴领域,我们更明智的做法是首先与那些拥有众多用户和丰富应用场景的领先企业建立合作关系。通过实际应用,我们可以深入探究模型如何更有效地发挥作用。若直接着手开发面向消费者的产品,首要任务便是实现用户量的增长,这无疑是一项艰巨的任务。然而,在明确与合作伙伴的探索方向之后,未来我们也有可能独立研发产品。
此外,展望未来,还有一个极具吸引力的设想:目前各终端设备均处于孤立状态,我们的目标是实现设备间的互联互通,实现跨设备间的交互功能。
请问,在您与OPPO共同开发的“一键问屏”功能中,目前它已经能够对图片进行解读。那么,未来是否有可能增加更多类似于“计算机使用”或“手机使用”这样的智能代理功能,这些功能能够与手机操作系统深度融合,进而调用更广泛的权限以执行各种操作?
姜大昕表示,确实如此。在技术层面,这些功能已经完全能够实现。然而,要将这些功能转化为产品并进行大规模生产,还需要一段时间的努力。在实现这一过程中,我们确实会遇到诸如API权限的整合、应用数据间的障碍等种种挑战。
这恰恰说明了尽管技术已经相当成熟,但产品的完善却需要一段时间的道理。这牵涉到一个复杂的议题,包括手机制造商之间的互动、生态系统的构建等多个层面,而要找到恰当的协作模式,则需要时间的积累与探索。
探讨在智能座舱技术领域的拓展极限究竟在哪里,目前已有部分初创企业专注于开发智能代理,并将大型模型视为其能力输出的来源,直接与汽车制造商建立合作关系。针对这一现象,阶跃在智能代理领域的考量有哪些?
姜大昕表示,纯应用型企业常常会遇到这样的挑战:随着通用模型技术步入新阶段,它们可能会遭受降维打击。鉴于此,我们并未将公司的发展重心完全寄托于单一应用,而是持续致力于技术和模型能力的强化。
我们极其看重实践应用的重要性,这是因为通用模型众多功能的发展很大程度上依赖于实际应用来推动。比如,在测试智能玩具的过程中,合作方提出了一个难题:如何区分孩子说话的停顿是因思考下一词而暂停,还是因为已经表达完毕?这类在通用场景中较为罕见的问题,若能在模型设计上得到妥善解决,无疑将显著增强模型的整体性能。因此,我们坚信,通过在多种情境下探寻此类挑战并将相关信息反馈给模型,可以有效推动模型能力的提升。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275983.html