1. 首页>>分享

成立17年上市10年的昆仑万维,独特中厂生存哲学助力其在风口长久立足,2023股价飙升5倍

图片

昆仑万维是一家不太容易读懂的公司。它成立了 17 年,上市也有 10 年了。从浏览器、社交、搜索、游戏等领域,到最近两年涉足 AI 音乐、AI 短剧等领域,它始终没有远离那些大厂云集的地方。

昆仑万维能在巨头卧榻之侧长久生存,是因为它总结出了一套独特且实用的“中厂”生存哲学。这套哲学包括找准细分市场,不进入红海;做好付费赛道,坚持盈利。

更多时候,昆仑万维紧跟大厂的节奏,并且将触角延伸到了大厂射程之外的市场。2023 年,借着 AI 的东风,昆仑万维的股价在几个月内大幅飙升了 5 倍。实际上,昆仑万维的生意早已在五大洲的 70 多个国家广泛开展。

昆仑万维已成立 17 年,董事长兼 CEO 方汉对《财经天下》表示:“宁为鸡口,不为牛后。”他总结道,中厂需要懂得从终局进行思考,在当下的大模型军备竞赛里,中厂更要在自己熟悉的赛道中达到“SOTA”(State-of-the-Art,当前最佳技术或最前沿水平)。

去年 4 月,昆仑万维推出了第一代音乐生成模型 Mureka V1(SkyMusic)。历经一年的改进与调试,在 3 月 26 日,昆仑万维正式上线了最新版的音乐大模型 Mureka O1 以及基座模型 Mureka V6。方汉表示:“我们最终选用了 O1 这个名字,原因是它是切实全面超越 Suno 的音乐生成模型。”

方汉除了分享了新上线的音乐模型,还与《财经天下》分享了他对当下火爆的 AI Agent 赛道的理解。他说:“一流的企业做协议,二流的企业做产品,三流的企业做市场。如今大家不会再让一个公司去垄断所有,所以这里面(属于中厂和创业公司的)机会与空间就非常多。”

图片

昆仑万维董事长兼CEO方汉。图源/受访者

01、追逐SOTA红利,节省营销

昆仑万维选择在音乐模型上“单点突破”,是有内外因的考虑的。“音乐大模型属于一个比较窄的赛道,不像文本大模型那般热门。算力成本低也是一个重要的因素。”方汉如此说道。

在必要的训练数据方面,昆仑万维有着不被大众所熟知的积累。2017 年的时候,K歌 软件在国内发展得很兴盛。昆仑万维的创始人周亚辉依照已有的做法,在海外培育出了音乐平台 StarMaker。

他曾明确表示:最为理想的商业状态是处于没有竞争的领域。在那个时候,昆仑万维选择避开了国内市场,把 StarMaker 的重点确定在了中东、非洲以及东南亚等地区。

昆仑万维为了解决大量歌曲缺少人声伴奏版本的问题,专门组建了 AI 作曲实验室 StarX MusicX Lab。这个实验室经过将近三年的研发,将 AI 人声消除技术提升到了世界头部水准。

这为 StarMaker 带来了用户,同时也为日后研发音乐大模型奠定了技术基础。人类到现在一共只生产了 4000 万首音乐。在这个过程中,我们对众多音乐进行了处理,并且还收集了全球各地的公开版权音乐。

2022 年底,StarMaker 累计注册用户的数量达到了 3.1 亿。方汉表示,如果要问谁家手上的全量音乐数据是最多的,那么可以说跟腾讯、字节一样,都属于头部梯队。

2021 年起,昆仑万维就已启动了音乐生成模型的立项工作。早期的模型大多运用符号生成技术。在 2024 年 4 月,昆仑万维推出了第一代采用扩散生成技术的音乐模型 Mureka V1(SkyMusic),此模型获得了外界的诸多好评。

方汉给团队对于新版 Mureka O1 的定位十分明确,即要从产品这一角度以及技术这一角度全面地超越 Suno,并且要在该赛道上达成 SOTA 的水平。

图片

为何要执着地去追求最先进的技术(SOTA)呢?这是因为方汉对昆仑万维有着“中厂”的定位。他认为,有了最先进的技术(SOTA),就可以不用去做任何营销,产品所带来的红利能够迅速地爆发。

他以 DeepSeek-R1 作为例子,依靠“推理大模型”在细分赛道 SOTA 上的优势,快速占据了中国文本大模型客户端的首位。在国外招揽到了众多客户,并且几乎没有投入 PR 费用。“我们深知,这一波大模型如果没有 SOTA,就无法获得技术和产品的红利。”

在音乐大模型的评测里,Mureka O1 在人声方面领先于 Suno V4,在 BGM(背景音乐)方面也领先于 Suno V4,在混音方面同样领先于 Suno V4。并且,在拥有海量曲库的情况下,Mureka O1 能够支持 10 种语言,几乎将世界上 90%的人群都覆盖了。

图片

Mureka O1的多语言选择。来源/官网

Mureka O1 在技术层面是怎样达成 SOTA 的呢?方汉作出表示:Mureka O1 的最大进展就是首次把“思维链(Chain of Thought,简称‘CoT’)”技术运用到了音乐模型当中。并且这也是方汉在对 DeepSeek-R1 的技术报告进行研读之后,所获得的启发。

CoT 从名称上就可以理解,它在推理过程中加入了思考以及自我批判。而市场上一代的音乐模型大多是以 Diffusion in Transformer(扩散模型与 Transformer 架构相结合的技术)为基础的,这类模型比较随机,并且没有明确的目的。

方汉形容,生成音乐的这个过程就如同“一锤子买卖”。可以一下子产出十几首曲子,然后把这些曲子交给用户,让用户进行人工调整。

在 CoT 的支持下,Mureka O1 会更具目的性,能够在生成之前对整个音乐结构进行预测。它凭借自身的评分模型,挑选出最好的结果并交给用户。这样一来,能够使生成质量大幅提高,让歌词旋律的契合度更高,发音唱对率也得以提升,艺术表现力也会显著增强。

方汉说,预测的过程是 MusiCoT 框架的核心。评分模型是基于 StarMaker 的用户积累,对 Mureka V1 生成的结果进行打分而形成的。

这个数据需要在线上大量地运行,要跑几千万首歌才能够跑出来。接着,我们对这几千万的数据进行筛选,进行清洗,并且进行人工标注。最后,得到真正用来训练的数据量其实并不是很大,然而那却是最核心的数据。

02、AI音乐要向谁收钱?

除了技术作为底座,Mureka O1也添加了多项功能创新。

此前在 StarMaker 上,昆仑万维观察到在 K 歌产品中,最受欢迎的歌手通常是其音色与某一歌星相近的。所以在 Mureka O1 里,模型为用户提供了“音色克隆”这一功能。

Mureka O1 新开放了“微调 API”。比如冬不拉这种比较小众的乐器,在生成器选项中通常很少出现。然而在 Mureka O1 上,用户能够通过上传大量由冬不拉演奏的音乐来对模型进行微调。这样一来,Mureka O1 就可以依据此来生成高质量的冬不拉音乐。

那么,Mureka O1 音乐大模型的用户群体是哪些呢?其商业模式又是怎样的呢?方汉指出,最为庞大的用户基础是 C 端爱好者。在过去,生产一首专业音乐的成本大约在 10 万元左右,而 AI 音乐的介入将会直接为他们降低创作的门槛。

在付费端方面,昆仑万维主要将目标对准的是影视领域的从业者,付费用户能够获得更高的速度。同时,昆仑万维也将目标对准了游戏领域的从业者,付费用户可获得优先的 AI 生成机会。此外,昆仑万维还将目标对准了音频领域的从业者,付费用户同样可获得更高速度、优先的 AI 生成机会。

Suno 有“走量模式”,目前其免费会员每天最多能生成 10 首歌曲;而愿意支付每月 8 美元的付费会员每月可生成 500 首歌曲,愿意支付每月 24 美元的付费会员每月可生成 2000 首歌曲,这与前面的情况有所不同。

昆仑万维除了有会员付费这一方式外,更侧重于为 B 端客户提供专业功能,并且通过 SaaS 或 PasS 服务来收取费用。在 2024 年,昆仑万维的音乐大模型获得了中国联通、中国移动等一些造车企业这样的大客户,以及海外的小 B 客户的合作。

方汉表示,在国内依靠用户订阅付费的这种商业模式难以成立。昆仑万维坚持出海,其中一个原因就是持续为有付费习惯的 B 端和 C 端用户提供服务。他还说,作为一个中等规模的厂商,不赚钱就无法生存下去,这是很现实的一个问题。

图片

从商业模式方面来看,昆仑万维觉得 Mureka O1 更适宜作为“平替”的是数字音乐工作站。

这个市场原先主要服务于专业人士,规模大概一年 40 亿美元,已经较为成熟了。而我们的作用就如同为他们提供了一个面向普通民众的工具,就好像给视频平台提供了“剪映”那样。

未来音乐大模型的发展方向将会是何种情况呢?中厂又应当怎样去选择赛道呢?方汉表示:“这就需要对终局进行反复的思考。”

AGI 是一个梦想,然而 AIGC 更易于赚钱,视频生成必定是 AIGC 皇冠上的明珠。在视频生成的过程中,是需要音乐、音效以及音频来进行配合的。

在整个视频生成的生态里,昆仑万维需要怎样去卡位呢?我们拥有音乐数据,所以先占据音乐的位置。我们具备短剧方面的经验和渠道,接着就去占据短剧这个位置,持续地让我们的卡位范围变小。

2 月 18 日,昆仑万维在 Hugging Face 上开源发布了视频生成模型 SkyReels-V1。过了大约两个星期,其下载量超过了 10 万。

SkyReels-V1 是中国首个面向 AI 短剧创作的视频生成模型。它既支持文生视频(T2V),又能支持图生视频(I2V)。它是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下,它的各项指标都实现了开源 SOTA。

图片

方汉称,SkyReels-V1 的定位是处于短剧场景之中,而非普通的视频生成范畴。确切来讲,它是一个表演大模型,专门为使用者与观众去生产质量最高的短剧以及影视剧。

03、中厂的卡位之路

在方汉的判断中,音乐和短剧市场的上限还极大。

视频生成之后,如果没有音乐,使用各种不同的 AI 工具去进行匹配,并且让人工去把控时间轴,还必须把控得非常准确,这是一件很困难的事情。然而,借助音乐大模型,就能够一次性将视频、配音以及配乐全部生成出来,“确保你的点是准确的,这在影视制作中具有很强的协同作用”。

对于广大 MCN 以及短视频作者而言,AI 音乐能让素人创作型歌手更容易冒出来,这是确定无疑的。

很多音乐创作者认为“AI 音乐没有灵魂”,对于这一疑问,方汉觉得偏见需要时间来消除。国内已经有顶尖创作者,例如郭帆导演与他们取得了联系。在 2024 年的春晚中,已经出现了 AIGC 的内容,像任素汐跳舞的背景就是由 AI 生成的。

“中厂”要如何处理与巨头的竞争关系呢?昆仑万维已经习惯以淡然的态度去对待。

在 AIGC 领域,中厂存在着很大的发展空间。大厂的本质是面向 C 端的基因,就如同字节跳动做剪映那样,主要是为自身的平台提供服务。对于其他客户的需求,其响应的程度不会那么高。而昆仑万维由于是“小厂”,所以更加具有开放性,“对于各种不同的视频生成模型,我们都会去进行适配。”

在 DeepSeek 引发新一轮技术创新之后,AIGC 技术会更多地体现在产品上,并且使中小厂有更多的机会展现出来。

方汉分享了一个行业观察:2023 年创业的 AI 企业 CEO 几乎全部是算法工程师。2024 年开始,有一些 CEO 是产品出身。他认为 2025 年往后,会有更多产品出身的人去做 AI 产品。

他称,互联网行业的人士常常提及,一流的企业会致力于做协议,二流的企业会专注于做产品,三流的企业会着重于做市场,而在大模型领域的情况也是这样的。

Anthropic 所研发的 MCP 协议(模型上下文协议)在 Agent 领域的应用极为广泛。开发基于 MCP 协议的 Agent,目前我们所见到的已经有上万个之多。近日,OpenAI、谷歌、阿里等也都纷纷效仿 Anthropropic,纷纷宣布接纳 MCP,并上线了新的服务平台。

Agent 最后会被捆在一个模型当中吗?答案是否定的。一定是所有的模型都能适配。并且从协议到生态这方面,还有很长的一段路需要去走。

方汉透露,有中国公司正在尝试构建 Agent 的工作流生态。随后,Agent 需要适配所有模型,那么要用何种协议来进行适配呢?那些千奇百怪的长尾需求由谁来响应呢?需要用什么样的工具来完成 Agent Marketplace 呢?(Agent Marketplace 用于展示和销售各种 AI Agents)在上层又该如何管理 Agent Marketplace 呢?“这就涉及很多路径,有开源路径,有闭源路径。”

AI 生态的发展路径肯定不会走移动互联网的旧路。大家都不想看到像安卓或者 iOS 商店那样的情况,因为在上面已经吃了很多苦头了。

如何利用更开放的生态来构建 Agent Marketplace 呢?又该怎样去寻找用户并收取费用呢?像 Manus 这样的 Agent 仅仅是刚刚崭露头角的事物,要走向通用 Agent 市场将会是一个漫长的过程。“大家不会再允许一个公司去独占所有,在这当中所蕴含的机会和空间是非常多的。”

作者是林小葵,编辑是李不清,图片的来源是视觉中国,本内容出自财经天下 WEEKLY

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275469.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息