1. 首页>>分享

AI算力淘金热:海内外企业摩拳擦掌,中国参与者众多

为在这一蓝海中掌握先发优势,海内外企业皆摩拳擦掌。

今年三月,被誉为“英伟达之子”的AI基础设施公司CoreWeave正式登陆资本市场。这家公司,凭借对英伟达GPU资源的深度利用,积极进军云计算领域。在IPO后的短短两个月内,其市值便从230亿美元激增至720亿美元。与之情形相仿,另一家国际AI基础设施公司Crusoe,同样依靠其掌握的GPU资源,实现了向云服务提供商的成功转型。

在这股AI算力淘金热潮中,我国参与者的数量同样庞大,其中包括众多云服务提供商,以及那些通过云服务来扩展自身AI基础设施业务的企业。

在今年的第二季度,那些致力于推动AI与云计算融合的企业,相继推出了各自的AI基础设施解决方案。CoreWeave发布了依托于英伟达GB200的全新架构;阿里云依托PAI-DLC云原生分布式深度学习训练平台,推出了FlashMoE;而九章云极则从AI计算底层革新着手,推出了采用Serverless+RL强化学习技术架构的九章智算云Alaya NeW Cloud。

中国AI新云的发展模式与海外企业不同,它们更注重于提升迭代速度和降低客户总体拥有成本等实际价值。方磊,九章云极的CEO,在接受时代周报的记者采访时指出,资本市场在评估以CoreWeave等资源型企业时,关注的焦点并非技术本身,而是这些企业通过出售资源所建立的市场规模。相较之下,我国企业更重视技术自身的“实用性”——其业务领域不仅包括资源的销售,还涉猎于多种场景下AI工具的应用。他提出,这种模式有利于保持与长尾客户的良好关系,而长尾客户往往是企业持续稳健发展的核心因素。

2013年,九章云极DataCanvas正式成立,成为中国AI基础设施领域的领军企业。在此之前,该公司提出了“一度算力包”这一创新理念,旨在解决行业内部存在的算力资源结构性不匹配、服务标准化程度低以及用户需求难以准确预测等一系列问题。

方磊毕业于清华大学电子工程系,博士学位在身,尽管他的专业背景是技术,但他在商业领域的洞察却非常贴近实际。他认为,商业的核心在于“销售商品”,在交易和合作过程中,既要把握商品的实际价值,又要明确其范围,并且要认识到客户企业的主动性和创新能力。

涉足AI新云业务的企业将所提供的服务优势集中于算力层面而非工具链,这样做对公司实现稳健发展具有更明显的优势。方磊向时代周报记者阐述道,一旦GPU实现“云化”,其规模和技术要求将迅速增加,其规模将如同电力一般庞大。微软曾由专注于操作系统的软件开发企业转型至Office领域,类似地,GPU云计算企业也将战胜算力和算法变革带来的挑战,于多样化的生态系统中确立自身的定位。

算力:CPU云向GPU云的历史性迁移

市场为什么会大力呼唤GPU专用云?

方磊指出,传统云架构的不足之处日益显现。这种基于虚拟化技术的资源切割模式,原本是为适应互联网时代带宽密集型应用而设计的。然而,AI工作负载的核心是计算密集型处理,它需要强大的大规模并行计算能力。这一需求与CPU的串行处理特性之间存在着根本性的冲突。

概括来说,CPU的技术架构在处理训练与推断大规模人工智能模型时表现不够出色。那么,在人工智能时代,我们究竟需要什么样的硬件支持呢?

方磊向时代周报记者详细阐释,在硬件配置上,GPU的性能显著提升,且资源分配更加高效。例如,英伟达最新推出的H200 GPU,其内存带宽高达4.8TB/s,是传统CPU系统(50GB/s)的近一百倍。在深度学习训练过程中,这一性能的增强可以使训练速度提升10至100倍。Multi-Instance GPU(MIG)技术可将单个GPU划分为至多7个独立的实例,这些“GPU分身”可并行运作,彼此间互不干扰。此技术使得下游企业能够更加灵活地调配计算资源,从而实现GPU的精细化管理。

硬件的更新换代仿佛为AI的研发注入了“涡轮增压”,这不仅极大地提升了计算效率,同时也赋予了行业内的参与者与传统行业巨头并肩作战的信心。时代周报记者观察到,随着从传统CPU通算云向GPU智算云架构的转变过程中,传统的云计算巨头正遭遇新兴力量的挑战。尽管像AWS、Google Cloud、Azure等企业已经推出了GPU实例,但在价格定位和性能优化方面,它们并未能迅速调整以迎合新的市场需求。

方磊指出,若数据中心在满足CPU与GPU双重需求时,其特性将变得模糊不清,如同四不像。一方面,若数据中心仅使用GPU,其运营成本将远低于同时部署GPU与CPU的情况。根据市场数据,亚马逊提供的GPU租赁费用为每卡12美元,而CoreWeave的报价则是每卡6美元;此外,若计算中心并未针对GPU进行深度优化,这也将对GPU的性能产生一定影响。

相较于传统云计算服务商“大象难以施展身姿”,专注于GPU的云企业其成本结构和商业运营模式则更加普遍适用。CoreWeave的GPU实例价格相较于传统云服务提供商,具有高达50%-80%的成本优势;而九章云极智算云Alaya NeW Cloud在定价上摒弃了传统的裸金属租赁模式,引入了“一度算力”按需计费的新模式,此举旨在降低使用算力的门槛,并增强算力使用的便捷性。

从CPU云向GPU云的过渡,不仅代表着技术的提升,更标志着计算模式从通用型向专用型的根本性变革,这一变革正在对云计算产业的竞争态势产生深远的影响。

算法:深度学习向强化学习跃迁

算法领域的革新同样对基础算力的提升产生了显著作用。目前,人工智能算法正逐步从依赖数据的深度学习转向基于经验的模式学习,这种创新性的训练模式对GPU专用云的运行效率提出了更高的标准。

高质量数据量在训练大型模型方面已接近极限,难以实现指数级的增长。这一限制迫使研究者们转向强化学习领域,他们通过模型与环境的互动来生成训练数据,利用经验反馈来突破数据短缺的困境,从而提升模型的推理能力。方磊向时代周报记者透露,算法范式的转变将带来新的算力需求。其原因是,强化学习的多模型结构显著提高了训练资源的消耗。以70B参数模型为参照,在RLHF阶段,大约需要48台A100 GPU协同运作,其计算需求相较于传统深度学习技术,增幅达到1至2个数量级。

方磊进一步阐释说,这一数据的评估与英伟达计算芯片更新的真实步伐紧密相连——以“B系列”芯片为参照,其“R系列”芯片在推理能力上实现了从十倍到百倍的飞跃。

在应对算法变革的挑战中,我们如何提高GPU专用云的运行效率?一个可行的策略是借鉴云计算行业的发展历程,从中吸取有益的经验。

近20年,云计算产业的发展出现了三个分水岭。首先,云计算以虚拟化技术为核心,正式开启了其历史性的篇章,用以应对移动互联网和流媒体兴起所引发的巨大计算需求;其次,池化技术的革新,通过大规模的调度和编排,构建了超大规模的计算与存储资源池,进而催生了亚马逊云、微软云、阿里云三足鼎立的行业格局;再者,阿里云创新性地提出了CIPU(云基础设施处理器)架构,这一架构不仅能在数据中心内部发挥显著作用,还能与系统中的软硬件实现深度兼容,一旦计算、存储和网络资源接入CIPU,便能转化为虚拟算力,实现调度和编排,同时确保了零损耗与高性能的兼顾。

前两次技术浪潮促使以CPU为中心的X86架构取代了大型机和小型机,满足了企业业务扩张对计算能力的弹性需求。然而,这些技术的核心都是通过软件优化,将越来越多的计算单元连接起来,对外提供服务。到了第三次技术变革,单纯软件的迭代已无法满足市场的需求,架构的创新成为了云计算厂商实现超越的新策略。

同样,对于针对GPU的专用云计算服务来说,“软硬件结合”的先进架构成为了应对算法不断变化的得力工具。方磊向时代周报记者透露,九章智算云从技术根基着手,促使架构从虚拟技术向以Serverless(无服务)和RL(强化学习)为核心的模式转变,助力AI部署实现从“配置机器”到“提交任务”的转变,进而提升在高度密集算力需求下GPU资源的利用效率。

Serverless+RL技术的核心在于将传统的后端服务拆分成更小的函数或服务单元,这些单元的资源管理、运维和扩展都由云平台自动完成。这就像解决饥饿问题,以前人们需要自己搭建厨房、采购食材甚至雇佣厨师,而现在只需在外卖平台上点餐即可。

在CPU云时代,虚拟化技术实现了资源的切片化,从而使用户得以便捷地利用资源;而步入GPU云时代,Serverless技术则使得用户能够更加专注于应用本身,无需过多精力投入于底层优化。这促使GPU云服务提供商更加注重AI优化、高密度AI计算等方面,帮助企业以较低成本达成既定目标。

与自动驾驶领域中的AI训练系统相仿,得益于Serverless架构的强大支持,九章云极AI的新云平台DataCanvas Alaya NeW Cloud能够自动执行环境配置、策略导入以及任务监控等操作,这使得其在强化学习训练过程中的端到端性能得到了显著提升,达到了原来的5倍。此外,Alaya-UI智能体的采样速率实现了5至10倍的飞跃,同时GPU的利用率也提升了2倍。方磊持观点,Serverless技术将主导GPU云的发展方向。

(九章云极智能计算论坛 受访者供图)

中美AI新云分野

在AI云服务的竞逐中,中美两国走出了截然不同的发展路径。

美国AI云服务领域显现出明显的资本集中趋势。CoreWeave公司通过与英伟达的紧密协作,依托数百亿美元的基础设施建设,成功打造了50%至80%的成本领先优势;而Lambda Labs公司也采取了资本密集型的发展策略,通过每小时2.49美元的H100 GPU租赁价格迅速在学术领域占据了一席之地。

然而,这两家公司的客户群体相对集中,例如CoreWeave超过60%的营收来源于微软这一单一重要客户。尽管这种商业模式能够确保短期内收入迅速增加,但同时也潜藏着一定的业务风险。

中国企业在寻求增长时,更倾向于采用技术创新手段,并针对客户需求提供定制化的服务方案。“经过我们优化的GPU,其使用效率能够达到95%以上,这一数据甚至超过了众多客户自行优化后的成果,而整个行业的平均GPU使用率通常仅在70%上下。”

除此之外,中美两国在AI云企业的市场定位上也有所不同。美国以资本为主导的模式主要针对的是大型企业客户,而中国则采用的是技术驱动的策略,专注于长尾市场的开发。在构建生态系统的理念上,美国更注重的是规模和效率,而中国则更加强调广泛普及和长期可持续的发展。

方磊指出,众多企业和数以千万计的个人开发者迫切需要一种灵活且价格合理的GPU云服务。他直言,我国目前智能算力的不足主要表现为结构性失衡。例如,某厂商在某个区域部署了万卡集群,然而,该地区对智能算力的需求者可能不得不在异地寻求服务器租赁服务。在当前的公开市场环境中,众多AI计算芯片要么被顶尖的互联网企业所掌控,要么以服务器(裸金属)的形式对外租赁,而那些市场化、面向大众、具有普惠性质的智能算力资源却极为罕见。

在谈到发展愿景时,方磊透露,九章云极立志成为国内NeoCloud领域的领航者,"我们先前提出了'一度算力'的概念,未来我们期望能开创出具有我国特色的AIDC运营新范式。”他还指出,DeepSeek-R1的成功推出证明了,通过较低的投入成本,同样可以获取到卓越的模型性能。这也预示着,是否能为数以千万计的开发者提供广泛覆盖的算力支持,将直接关系到AI云服务提供商在市场竞争中的关键评估标准。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/276010.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息