百模大战激战正酣，2023 年成立的中国 AI 初创企业欲革新 Transformer 架构-模具钢网

在“百模大战”进行得如火如荼之际，有一家中国AI初创企业，它成立于2023年6月，试图推翻2017年谷歌提出的Transformer架构，朝着更底层深入开展创新。

Transformer是当前主流生成式AI采用的架构，这其中包括引发此轮AI热潮的GPT。谷歌发布了关于Transformer架构的论文，其标题为注意力即为一切（Attention Is All You Need）。

这家名为RockAI（岩芯数智）的中国企业，想通过架构创新来减少冗余计算，想通过架构创新来减少算力消耗，要“让世界上每一台设备拥有自己的智能（Make every device its own intelligence）” 。

不到两年，他们取得了不错的进展。RockAI研发出了Yan架构，于2024年1月推出中国首个非Transformer架构的Yan1.0大模型，随后将其更新至多模态Yan1.3版本，该版本能够高效处理图文、语音等多模态信息，可适配树莓派、无人机、机器人、PC、手机等各类终端设备，能在弱网环境以及硬件和算力不太强的条件下达成端侧智能。

RockAI位于上海的办公室里，有一个全开放式办公区，其全部团队约60人坐在那里。这一群极客少年工作投入，叫他们名字常被无视，得拍一下肩膀，对方才可能有反应。

2025年3月底，南方周末研究员在此处见到了RockAI的两位联合创始人刘凡平与邹佳思。他们温和、内敛，甚至有些斯文。其外表与谈吐，着实不似那些喊出如此张扬口号的野心勃勃的创业者。

他们曾在互联网大厂从事搜索工作，也曾从事游戏开发工作，还有过短暂的小型创业经历，实际情况就是这样。在二三四五网络科技股份有限公司（即岩山科技（002195.SZ）的前身，以下简称“二三四五”）共事时，他们一起优化Transformer，穷尽各种可能后，一拍即合决定创业，要建立自己的AI架构。

RockAI创始人、CEO刘凡平对南方周末表示，智能终端是走向通用人工智能（AGI）的“最优载体”，其形态会依据需求发生千变万化，会扮演真正的“变形金刚”角色。他还称，如果以前是“软件定义硬件”，那么未来则是“智能定义硬件” 。

如同GPT引发了生成式人工智能革命，DeepSeek推翻了“算力霸权”，那么Yan架构以及它所在的中国制造生态，能不能引领群体智能迈向AGI呢？

从底层架构革新

南方周末：你们最早什么时候意识到大模型的效用？

刘凡平表示，从外界的角度看，大模型似乎是近两年才开始爆发的。然而，我们所学的专业以及工作经历都与算法密切相关，所以在相关技术最初出现的时候我们就有所感知。在2019年，团队开展搜索推荐业务时，就打算运用Transformer架构来解决问题。经过几次尝试后，发现确实有效果。

南方周末：“有效果”具体是指什么？

刘凡平表示，大模型能够改善业务。二三四五曾有一项业务叫信息流，即屏幕下划可不断刷新新闻资讯。然而，有的读者点进去后发现浏览全文篇幅过长。于是，我们开发了摘要生成功能，以此帮助读者知晓文章要点，这属于大模型早期的典型应用之一。

南方周末：自主创业后，为什么在2023年又回到岩山科技？

邹佳思：2022年初刚开始创业时，外界对大模型的感知非常微弱，好多人都不理解，团队主要依靠自有资金来发展。在寻求投资的进程中，恰好碰到岩山科技的实控人变更以及AI转型，双方在大模型的理念和认知方面达成了一致：岩山科技给予平台和资金支持，而我们也能够加速非Transformer架构的研究与落地。

南方周末：GPT爆火之后，2023年有许多大模型公司成立，不过多数都是基于Transformer架构。你们是如何想到要从底层架构入手进入这个赛道的？

刘凡平表示，并非突然想做架构，而是历经了无数试错过程。在二三四五所做的大模型确实有效果，然而随后出现了一系列逻辑和幻觉问题。例如，明明训练的是“1+1=2”，但到了计算环节却变成了“1+1=3” 。

起初，我们期望改进Transformer架构，特别是自注意力机制，期望它效率更高且幻觉更少，经过多次尝试但效果甚微，于是大家决定彻底革新架构。

南方周末：初创公司一开始就从架构切入，这看起来非常有挑战。

邹佳思表示，创业过程中实际上一直都在经历困难。架构革新是一个从无到有的过程，要花费大量精力来证明效果。自2022年初以来，Yan架构已经迭代了几十次。直到2024年1月，1.0版本才相对稳定。这一过程整整花费了两年时间。在此期间，需要大量的实验与理论相互验证。

南方周末：AI人才很贵，你们最早怎么组的团队呢？

刘凡平表示，早期团队仅有十几个人，招聘极为困难，主要依靠“忽悠”前同事和朋友。后来产品逐渐成熟，才有了通过社会招聘而来的同事以及应届生，进而形成了如今包含算法、工程、产品、市场等不同角色的团队。他还自豪地宣称，自团队成立以来离职率为0。大家都具有“极客少年”的风格，真正热爱这个行业，而这也是他们选人的重要标准。

为什么是“非主流”？

南方周末：对于Transformer架构所出现的幻觉问题，你持怎样的看法？

刘凡平表示，有三方面原因。其一，存在数据依赖性与数据偏差，比如训练数据在某些主题或领域更为密集，在其他方面则相对稀疏，这致使模型在不熟悉的领域生成不准确的信息。其二，缺乏对现实世界的直接理解，Transformer模型处理的是计算机表示的符号，无法完全理解此类符号所代表的现实世界概念，所以模型在生成内容时不能像人类一样通过感官经验或逻辑推理来验证信息的真实性。其三，生成式模型的本质是概率选择，每一个分支下都有诸多可能。

南方周末：这要如何解决？

刘凡平称，我们正借助“类脑激活机制”来尝试解决问题，一方面要从数据层面进行缓解，以减少对算力的依赖，另一方面要研究具有更强知识表示能力与记忆能力的模型，在同等小参数量的情形下，Yan 1.3版本的幻觉比Llama 3低。

南方周末：“类脑激活机制”是怎么运作的？

刘凡平表示，Transformer架构在计算“1+1”这类简单问题时，所有参数都会参与运算，基于Transformer的MoE（混合专家）模型虽缓解了算力消耗过高的问题，却未从根源上解决。

相比之下，人类大脑更为高效，它能够依据实际情形选择性地激活神经元的某些部分，例如视觉皮层在你开车的时候会被大量激活，而在睡觉时只会被少量激活。同样的道理，Yan大模型基于仿生神经元驱动的选择算法，也会依照具体问题来决定哪些参数参与计算。

形象地讲，要是你打算从浦西前往浦东，有十几座跨江大桥可供选择。Transformer会梳理每一座桥的可行性进而做出抉择；MoE会调用合适的大桥，其他的则不做选择；Yan会在浦西到浦东之间安排一艘快船，船的大小依据具体情况来定。

南方周末提问，意识到Transformer痛点的并非只有RockAI，微软、Meta也在开展ReNet、Mega等新架构的研究，你们作为初创公司同样在做新架构，是基于怎样的考量？

刘凡平：一方面，我们历经了对Transfomer从理解到改进再到放弃的整个过程，最后才决定改变架构；另一方面，这实际上体现了跟风创业与主动创业的差异：自2023年起，多数大模型公司借助开源代码打造产品，这样能比较容易且高效地产出成果，然而核心技术并不掌握在自己手中。我们希望从底层参与模型搭建，把大模型做扎实。

南方周末：你们从一开始就笃定Yan架构可以做大吗？

刘凡平表示，从技术发展的角度来看，AI行业的每次大起大落，都是算法层面出现了革新，比如反向传播算法、神经网络、深度学习等。AI的最终结局还远未到来，没有哪种算法能够一直持续下去。我们无法确定Yan架构就是AI算法的未来，但它的确是一条可供选择的路径。

南方周末：除了技术可行性，商业化方面是怎么考虑的？

邹佳思表示，这就回归到RockAI成立的初衷，即“让世界上每一台设备拥有自己的智能” ，最初的想法是实现智能终端普惠，无论在中国的几线城市，还是世界上的哪个国家。

端侧直到如今都没有爆发，其中一个原因是对高算力以及联网存在依赖，这致使设备容易出现延时情况，成本过高，适配性也不佳。从底层进行大刀阔斧的创新，我们能够让大模型在更广泛的终端运行起来，这对于手机、PC、机器人、穿戴设备都具备更大的吸引力。

“智能定义硬件”

南方周末：为何会提出这样一个目标，即“让世界上每一台设备拥有自己的智能”？

刘凡平表示，不管人工智能怎样发展，终端都是最为基础的载体。在现阶段，人们办公或者休闲依靠手机、电脑以及穿戴设备等。到了未来，终端设备不仅会提供这些服务，还会被AI改变。每一台设备都有自身的智能，进而实现“群体智能”，机器文明才会降临。

邹佳思表示，许多大模型公司宣称追求AGI，然而他们并不明晰AGI最终的呈现形式。我们觉得，智能终端是迈向AGI的最佳方式之一，它能够真正实现千人千面。

南方周末：想要达成这个目标，目前最紧迫的事情是什么？

刘凡平表示，我们期望Yan大模型能够尽快得到应用，然而，当下市场对我们不太“友善”，大家并未真正理解底层架构，将主流大模型的一些问题视作通病，所以让市场理解我们的架构确实需要一个过程。

南方周末：Yan大模型已在许多终端上搭载，你们是如何推动合作开展的？

邹佳思表示，会有手机厂商主动找到我们，会有PC厂商主动找到我们，会有机器人厂商主动找到我们。消费电子已处于红海市场，行业格局基本固定，每家厂商都期望AI大模型成为新的爆发点。一些头部厂商倾向自行研发，然而端侧离线模型的门槛相对较高。

刘凡平：比如说在2024年7月举办的世界人工智能大会上，有一个合作伙伴看到了RockAI展台上摆放的PC以及机器人，随后便与我们取得了联系，而我们所展示的样机是能够随时供人体验的，所以很快就达成了合作意向。这个合作伙伴致力于开拓海外市场，在一些国家，网络基础设施状况比较差，而在另一些国家，人们十分注重个人隐私，这些情况都需要端侧具备AI能力。此外。他们的产品将目标定位在下沉市场，其设备缺乏较高的算力支持。而这些挑战恰好能由Yan架构大模型予以满足。

南方周末：既然你们这么看好终端智能，为什么没有考虑自己做？

刘凡平表示，时间还未到。若以前是“软件定义硬件”，那么未来则是“智能定义硬件”，智能化水平决定终端形态。从这个角度来看，大家会更明白为何具身智能发展似乎“既快又慢”，原因是智能化程度尚未完全匹配。

随着技术不断迭代，必然会产生新的终端形态。我们身为AI公司，期望能决定硬件的设计过程，也期望能决定硬件的生产过程，还要探索面对不同场景的最终形态。我们预计今年会持续推进与外部厂商的合作，明后年或许会布局硬件市场。

南方周末提出疑问，市场是否有耐心等待，RockAI历经两年时间积累的技术护城河能够持续多长时间？

刘凡平表示，我们是有信心的。模型架构与传统的软硬件不一样，底层架构的算法逻辑难以被模仿，不能看到某款产品不错就直接进行 “套壳” 或者 “复制” 。探索算法架构需要一个相当长的过程，至少两三年。

南方周末提出疑问，头部科技企业拥有资金优势，头部科技企业拥有人才优势，难道就不能迭代出自身的底层架构吗？

刘凡平表示，当然存在这种可能性。人工智能赛道尚未到达终局，所以企业之间的竞争会持续不断。谁都没办法确保自己能坚持到最后，不过至少当前我们处于领先位置。另外，技术护城河十分关键，从业者也同样重要，需要具备能力并且怀有热爱，要像我们这样，在外界不理解的情况下坚持坐“冷板凳”。

AGI还有多远？

南方周末：在RockAI的构想里，智能终端实现爆发的关键因素是什么？

现阶段人们对智能终端感受不深，原因在于主流大模型采用预训练形式，它并不具备自主学习能力，以GPT为例，它可以写作，却很难模仿作者的风格，只能依据自己学过的知识尽量贴近。

目前我们正在推进一种方法这种方法是训练与推理过程同时进行它类似于人际交流当一个人表达观点的时候这是推理阶段同时这个人能倾听信息自我学习这是训练阶段自主学习能力会在今年底发布的Yan 2.0版本中呈现。

南方周末：具有自主学习能力的设备，应该怎样去应对伦理以及监管方面的问题？

刘凡平表示，我们归纳起来存在两个需要解决的问题。其一，是“哪些该学”的问题，例如向机器输入“黄赌毒”信息，机器不应进行记忆。其二，是“哪些该说”的问题，机器人在家与用户聊天时涉及诸多隐私，不应在他人面前暴露。当模型具备自主学习能力后，其后续发展很难得到控制，或许在出厂阶段是合规的，但与用户接触后就变得不合规了。这些情况都有待监管。

南方周末：所以，你们如何规划Yan 2.0的落地方式？

刘凡平表示，核心前提是解决“哪些该学”以及“哪些该说”的问题。例如，曾经考虑过将涉及敏感信息的参数固化下来。目的是拒绝一切“不该学”和“不该说”的信息。然而，这样做会降低它的学习能力。

邹佳思称，计划以“功能”形式而非模型形式对外发布Yan 2.0，比如将其搭载于某种机器人上，它能通过音视频输入学习向左、向右的指令，不过接收到非法指令时功能会被阻断。

南方周末：自主学习之后，大模型是不是就具备了AGI能力？

自主学习是AGI的一个前提，大模型自主学习，并且能与其他设备相互学习，就可以不断提升自己的各项能力，这意味着“群体智能”时代的到来，每个智能终端的能力都得到提升，才是我们设想中的AGI ，而不是打造一个万能机器。

在六人团队里，有两人擅长媒体领域，四人擅长金融领域，他们能够相互学习。一个月过后，擅长金融的人拥有了媒体人60%的能力，擅长媒体的人也拥有了金融人60%的能力，如此一来整个团队的综合实力便会得到增强。

南方周末：“群体智能”的最终意义是什么？

刘凡平具备若干智能单元，这些智能单元能够自主学习，它们通过环境感知、自我组织、互动协作共同解决复杂问题，并且在不断变化的环境中实现整体智能提升。

邹佳思表示，“群体智能”旨在提高生产力。信息流通是生产力进步的关键环节，然而人类通过语言、文字进行沟通时效率很低，容易出现表达不清或造成误解的情况。我们期望达成“群体智能”的设备如同“三体人”，其自身进化速度快，彼此交流速度也快。

南方周末研究员曹妍

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275836.html

百模大战激战正酣，2023 年成立的中国 AI 初创企业欲革新 Transformer 架构

相关推荐

联系我们