成立17年上市10年的昆仑万维，独特中厂生存哲学助力其在风口长久立足，2023股价飙升5倍-模具钢网

昆仑万维是一家不太容易读懂的公司。它成立了 17 年，上市也有 10 年了。从浏览器、社交、搜索、游戏等领域，到最近两年涉足 AI 音乐、AI 短剧等领域，它始终没有远离那些大厂云集的地方。

昆仑万维能在巨头卧榻之侧长久生存，是因为它总结出了一套独特且实用的“中厂”生存哲学。这套哲学包括找准细分市场，不进入红海；做好付费赛道，坚持盈利。

更多时候，昆仑万维紧跟大厂的节奏，并且将触角延伸到了大厂射程之外的市场。2023 年，借着 AI 的东风，昆仑万维的股价在几个月内大幅飙升了 5 倍。实际上，昆仑万维的生意早已在五大洲的 70 多个国家广泛开展。

昆仑万维已成立 17 年，董事长兼 CEO 方汉对《财经天下》表示：“宁为鸡口，不为牛后。”他总结道，中厂需要懂得从终局进行思考，在当下的大模型军备竞赛里，中厂更要在自己熟悉的赛道中达到“SOTA”（State-of-the-Art，当前最佳技术或最前沿水平）。

去年 4 月，昆仑万维推出了第一代音乐生成模型 Mureka V1（SkyMusic）。历经一年的改进与调试，在 3 月 26 日，昆仑万维正式上线了最新版的音乐大模型 Mureka O1 以及基座模型 Mureka V6。方汉表示：“我们最终选用了 O1 这个名字，原因是它是切实全面超越 Suno 的音乐生成模型。”

方汉除了分享了新上线的音乐模型，还与《财经天下》分享了他对当下火爆的 AI Agent 赛道的理解。他说：“一流的企业做协议，二流的企业做产品，三流的企业做市场。如今大家不会再让一个公司去垄断所有，所以这里面（属于中厂和创业公司的）机会与空间就非常多。”

昆仑万维董事长兼CEO方汉。图源/受访者

01、追逐SOTA红利，节省营销

昆仑万维选择在音乐模型上“单点突破”，是有内外因的考虑的。“音乐大模型属于一个比较窄的赛道，不像文本大模型那般热门。算力成本低也是一个重要的因素。”方汉如此说道。

在必要的训练数据方面，昆仑万维有着不被大众所熟知的积累。2017 年的时候，K歌软件在国内发展得很兴盛。昆仑万维的创始人周亚辉依照已有的做法，在海外培育出了音乐平台 StarMaker。

他曾明确表示：最为理想的商业状态是处于没有竞争的领域。在那个时候，昆仑万维选择避开了国内市场，把 StarMaker 的重点确定在了中东、非洲以及东南亚等地区。

昆仑万维为了解决大量歌曲缺少人声伴奏版本的问题，专门组建了 AI 作曲实验室 StarX MusicX Lab。这个实验室经过将近三年的研发，将 AI 人声消除技术提升到了世界头部水准。

这为 StarMaker 带来了用户，同时也为日后研发音乐大模型奠定了技术基础。人类到现在一共只生产了 4000 万首音乐。在这个过程中，我们对众多音乐进行了处理，并且还收集了全球各地的公开版权音乐。

2022 年底，StarMaker 累计注册用户的数量达到了 3.1 亿。方汉表示，如果要问谁家手上的全量音乐数据是最多的，那么可以说跟腾讯、字节一样，都属于头部梯队。

2021 年起，昆仑万维就已启动了音乐生成模型的立项工作。早期的模型大多运用符号生成技术。在 2024 年 4 月，昆仑万维推出了第一代采用扩散生成技术的音乐模型 Mureka V1（SkyMusic），此模型获得了外界的诸多好评。

方汉给团队对于新版 Mureka O1 的定位十分明确，即要从产品这一角度以及技术这一角度全面地超越 Suno，并且要在该赛道上达成 SOTA 的水平。

为何要执着地去追求最先进的技术（SOTA）呢？这是因为方汉对昆仑万维有着“中厂”的定位。他认为，有了最先进的技术（SOTA），就可以不用去做任何营销，产品所带来的红利能够迅速地爆发。

他以 DeepSeek-R1 作为例子，依靠“推理大模型”在细分赛道 SOTA 上的优势，快速占据了中国文本大模型客户端的首位。在国外招揽到了众多客户，并且几乎没有投入 PR 费用。“我们深知，这一波大模型如果没有 SOTA，就无法获得技术和产品的红利。”

在音乐大模型的评测里，Mureka O1 在人声方面领先于 Suno V4，在 BGM（背景音乐）方面也领先于 Suno V4，在混音方面同样领先于 Suno V4。并且，在拥有海量曲库的情况下，Mureka O1 能够支持 10 种语言，几乎将世界上 90%的人群都覆盖了。

Mureka O1的多语言选择。来源/官网

Mureka O1 在技术层面是怎样达成 SOTA 的呢？方汉作出表示：Mureka O1 的最大进展就是首次把“思维链（Chain of Thought，简称‘CoT’）”技术运用到了音乐模型当中。并且这也是方汉在对 DeepSeek-R1 的技术报告进行研读之后，所获得的启发。

CoT 从名称上就可以理解，它在推理过程中加入了思考以及自我批判。而市场上一代的音乐模型大多是以 Diffusion in Transformer（扩散模型与 Transformer 架构相结合的技术）为基础的，这类模型比较随机，并且没有明确的目的。

方汉形容，生成音乐的这个过程就如同“一锤子买卖”。可以一下子产出十几首曲子，然后把这些曲子交给用户，让用户进行人工调整。

在 CoT 的支持下，Mureka O1 会更具目的性，能够在生成之前对整个音乐结构进行预测。它凭借自身的评分模型，挑选出最好的结果并交给用户。这样一来，能够使生成质量大幅提高，让歌词旋律的契合度更高，发音唱对率也得以提升，艺术表现力也会显著增强。

方汉说，预测的过程是 MusiCoT 框架的核心。评分模型是基于 StarMaker 的用户积累，对 Mureka V1 生成的结果进行打分而形成的。

这个数据需要在线上大量地运行，要跑几千万首歌才能够跑出来。接着，我们对这几千万的数据进行筛选，进行清洗，并且进行人工标注。最后，得到真正用来训练的数据量其实并不是很大，然而那却是最核心的数据。

02、AI音乐要向谁收钱？

除了技术作为底座，Mureka O1也添加了多项功能创新。

此前在 StarMaker 上，昆仑万维观察到在 K 歌产品中，最受欢迎的歌手通常是其音色与某一歌星相近的。所以在 Mureka O1 里，模型为用户提供了“音色克隆”这一功能。

Mureka O1 新开放了“微调 API”。比如冬不拉这种比较小众的乐器，在生成器选项中通常很少出现。然而在 Mureka O1 上，用户能够通过上传大量由冬不拉演奏的音乐来对模型进行微调。这样一来，Mureka O1 就可以依据此来生成高质量的冬不拉音乐。

那么，Mureka O1 音乐大模型的用户群体是哪些呢？其商业模式又是怎样的呢？方汉指出，最为庞大的用户基础是 C 端爱好者。在过去，生产一首专业音乐的成本大约在 10 万元左右，而 AI 音乐的介入将会直接为他们降低创作的门槛。

在付费端方面，昆仑万维主要将目标对准的是影视领域的从业者，付费用户能够获得更高的速度。同时，昆仑万维也将目标对准了游戏领域的从业者，付费用户可获得优先的 AI 生成机会。此外，昆仑万维还将目标对准了音频领域的从业者，付费用户同样可获得更高速度、优先的 AI 生成机会。

Suno 有“走量模式”，目前其免费会员每天最多能生成 10 首歌曲；而愿意支付每月 8 美元的付费会员每月可生成 500 首歌曲，愿意支付每月 24 美元的付费会员每月可生成 2000 首歌曲，这与前面的情况有所不同。

昆仑万维除了有会员付费这一方式外，更侧重于为 B 端客户提供专业功能，并且通过 SaaS 或 PasS 服务来收取费用。在 2024 年，昆仑万维的音乐大模型获得了中国联通、中国移动等一些造车企业这样的大客户，以及海外的小 B 客户的合作。

方汉表示，在国内依靠用户订阅付费的这种商业模式难以成立。昆仑万维坚持出海，其中一个原因就是持续为有付费习惯的 B 端和 C 端用户提供服务。他还说，作为一个中等规模的厂商，不赚钱就无法生存下去，这是很现实的一个问题。

从商业模式方面来看，昆仑万维觉得 Mureka O1 更适宜作为“平替”的是数字音乐工作站。

这个市场原先主要服务于专业人士，规模大概一年 40 亿美元，已经较为成熟了。而我们的作用就如同为他们提供了一个面向普通民众的工具，就好像给视频平台提供了“剪映”那样。

未来音乐大模型的发展方向将会是何种情况呢？中厂又应当怎样去选择赛道呢？方汉表示：“这就需要对终局进行反复的思考。”

AGI 是一个梦想，然而 AIGC 更易于赚钱，视频生成必定是 AIGC 皇冠上的明珠。在视频生成的过程中，是需要音乐、音效以及音频来进行配合的。

在整个视频生成的生态里，昆仑万维需要怎样去卡位呢？我们拥有音乐数据，所以先占据音乐的位置。我们具备短剧方面的经验和渠道，接着就去占据短剧这个位置，持续地让我们的卡位范围变小。

2 月 18 日，昆仑万维在 Hugging Face 上开源发布了视频生成模型 SkyReels-V1。过了大约两个星期，其下载量超过了 10 万。

SkyReels-V1 是中国首个面向 AI 短剧创作的视频生成模型。它既支持文生视频（T2V），又能支持图生视频（I2V）。它是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下，它的各项指标都实现了开源 SOTA。

方汉称，SkyReels-V1 的定位是处于短剧场景之中，而非普通的视频生成范畴。确切来讲，它是一个表演大模型，专门为使用者与观众去生产质量最高的短剧以及影视剧。

03、中厂的卡位之路

在方汉的判断中，音乐和短剧市场的上限还极大。

视频生成之后，如果没有音乐，使用各种不同的 AI 工具去进行匹配，并且让人工去把控时间轴，还必须把控得非常准确，这是一件很困难的事情。然而，借助音乐大模型，就能够一次性将视频、配音以及配乐全部生成出来，“确保你的点是准确的，这在影视制作中具有很强的协同作用”。

对于广大 MCN 以及短视频作者而言，AI 音乐能让素人创作型歌手更容易冒出来，这是确定无疑的。

很多音乐创作者认为“AI 音乐没有灵魂”，对于这一疑问，方汉觉得偏见需要时间来消除。国内已经有顶尖创作者，例如郭帆导演与他们取得了联系。在 2024 年的春晚中，已经出现了 AIGC 的内容，像任素汐跳舞的背景就是由 AI 生成的。

“中厂”要如何处理与巨头的竞争关系呢？昆仑万维已经习惯以淡然的态度去对待。

在 AIGC 领域，中厂存在着很大的发展空间。大厂的本质是面向 C 端的基因，就如同字节跳动做剪映那样，主要是为自身的平台提供服务。对于其他客户的需求，其响应的程度不会那么高。而昆仑万维由于是“小厂”，所以更加具有开放性，“对于各种不同的视频生成模型，我们都会去进行适配。”

在 DeepSeek 引发新一轮技术创新之后，AIGC 技术会更多地体现在产品上，并且使中小厂有更多的机会展现出来。

方汉分享了一个行业观察：2023 年创业的 AI 企业 CEO 几乎全部是算法工程师。2024 年开始，有一些 CEO 是产品出身。他认为 2025 年往后，会有更多产品出身的人去做 AI 产品。

他称，互联网行业的人士常常提及，一流的企业会致力于做协议，二流的企业会专注于做产品，三流的企业会着重于做市场，而在大模型领域的情况也是这样的。

Anthropic 所研发的 MCP 协议（模型上下文协议）在 Agent 领域的应用极为广泛。开发基于 MCP 协议的 Agent，目前我们所见到的已经有上万个之多。近日，OpenAI、谷歌、阿里等也都纷纷效仿 Anthropropic，纷纷宣布接纳 MCP，并上线了新的服务平台。

Agent 最后会被捆在一个模型当中吗？答案是否定的。一定是所有的模型都能适配。并且从协议到生态这方面，还有很长的一段路需要去走。

方汉透露，有中国公司正在尝试构建 Agent 的工作流生态。随后，Agent 需要适配所有模型，那么要用何种协议来进行适配呢？那些千奇百怪的长尾需求由谁来响应呢？需要用什么样的工具来完成 Agent Marketplace 呢？（Agent Marketplace 用于展示和销售各种 AI Agents）在上层又该如何管理 Agent Marketplace 呢？“这就涉及很多路径，有开源路径，有闭源路径。”

AI 生态的发展路径肯定不会走移动互联网的旧路。大家都不想看到像安卓或者 iOS 商店那样的情况，因为在上面已经吃了很多苦头了。

如何利用更开放的生态来构建 Agent Marketplace 呢？又该怎样去寻找用户并收取费用呢？像 Manus 这样的 Agent 仅仅是刚刚崭露头角的事物，要走向通用 Agent 市场将会是一个漫长的过程。“大家不会再允许一个公司去独占所有，在这当中所蕴含的机会和空间是非常多的。”

作者是林小葵，编辑是李不清，图片的来源是视觉中国，本内容出自财经天下 WEEKLY

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275469.html

成立17年上市10年的昆仑万维，独特中厂生存哲学助力其在风口长久立足，2023股价飙升5倍

相关推荐

联系我们