划重点
开源AI迅速兴起,Llama不再占据主导地位,多个出色的模型出现,开源模型的表现渐渐超越闭源模型。
不同的AI实验室专注于不同领域,Anthropic着重于编码,OpenAI专注于推理,Meta致力于自然互动以及多模态能力。
在未来12至18个月内,AI会自动化编写大部分研究代码,不过基础设施(像计算与能源)仍然是发展瓶颈 。
DeepSeek在底层优化方面做得确实出色,其最终的文本模型表现也颇为不错,然而它欠缺多模态能力。
AI应用采用多样化商业模式,这些商业模式是根据不同需求而来的,包括免费广告支持模式,订阅服务模式,高阶付费服务模式。
AI不会让工作机会减少,相反,它会创造出更多需求,比如说,能提升客服等领域的效率 。
Meta首席执行官马克·扎克伯格近日接受了知名科技播客主持人德瓦克什·帕特尔的专访,在这次访谈里,扎克伯格探讨了多个关键话题,其中涵盖Llama 4的改进,通用人工智能(AGI)的商业化道路,DeepSeek的优点与缺点,开源的优势及其在AI发展中的意义等 。
以下为扎克伯格最新专访精华版:
01 Llama 4不追榜单重用户体验
问:Llama 4 相较 Llama 3 有哪些进展?
扎克伯格称,他们刚刚发布了 Llama 4 系列的首批模型,这一代模型相较于 Llama 3 在多个方面都有显著进步,Meta AI 当前月活用户已接近 10 亿且增长速度极快,他觉得今年会是 AI 发展的关键节点,特别是在着手构建所谓的“个性化闭环”之后。这一闭环整合了用户在信息流中的数据,整合了用户在个人资料中的数据,整合了用户在社交关系中的数据,还整合了用户与AI交互过程中的数据,我们认为这将是下一阶段最具潜力的创新方向,所以正加大投入。
在模型研发方面 我们发布了 Llama 4 系列中的两个模型 Scout和Maverick 它们属于中小型模型 具备出色性能 响应延迟极低 非常适合大规模实际应用 这些模型是原生多模态设计 可在单台服务器上运行 性价比极高目前,Llama 3里最受欢迎的是80亿参数的模型,我们会在Llama 4中推出同等规模的版本,其内部代号为 “Little Llama”,预计在未来几个月发布。
此外,我们正在开发一个规模前所未有的大模型,它的代号是Behemoth,其参数量超过2万亿 ,这是我们第一次尝试如此庞大的模型 ,我们也在探寻如何让它变得真正实用 ,因为体积过大 ,它不适合直接应用于消费级场景 ,可能会通过模型蒸馏等方式转化为更小、更便于部署的版本 。
2024年,Llama 3首发,之后我们对其进行持续优化迭代,比如推出了Llama 3.1,该版本有4050亿参数模型,还引入了多模态能力的Llama 3.2。今年我们有类似路线图,会继续拓展模型的能力边界。
问:开源模型是否在被闭源模型拉开差距?
扎克伯格表示,对于开源模型而言,他觉得今年会是关键的一年。在2024年,Llama差不多是唯一具有创新性的开源大模型。如今,开源模型生态变得越发活跃,出现了许多强劲的竞争者。从整体情况来看,开源成为主流的趋势已经在一步步实现。
目前市场上有一种“推理模型”,它专注于提升数学和编程任务中的复杂推理能力,不过这通常是以牺牲响应速度作为代价的。我们也在研发一款专注推理能力的Llama 4版本,它会在未来某个时间发布。
但对于我们所关注的多数产品应用场景而言,延迟和成本更为关键。用户不愿意等待半分钟去获取答案,理想的体验是在0.5秒内给出一个“足够好”的响应。未来,我们期望在核心语言模型中融入推理能力,这也是谷歌Gemini正在探索的方向,我们对此也持乐观态度。
至于像Chatbot Arena这类基准测试,其参考价值是有限的。它们所评估的大多是特定任务,这些任务不一定符合真实用户行为。我们曾尝试过度调优模型来提升在排行榜中的名次,然而结果却是背离了用户期望的实际体验。所以,我们更重视Meta AI应用中的用户真实反馈,而非盲目追求榜单成绩。
此外,很多基准测试很容易出现“刷榜”情况。比如,Sonnet 3.7是一款很强的模型,然而它在榜单上的位置并不显眼。同样,我们能够轻松把Llama 4 Maverick的调优版本推至榜首,不过我们选择发布未经调优的基础版本,其表现自然偏低。我们更看重实际产品中的用户体验,而非排行榜上的名次。
目前,每个实验室都以创造通用人工智能或超级智能为目标,致力于推动进入一个时代,在这个时代里,人人都能够利用这些超智能工具创造富足的世界,这种智能革命可带来巨大的经济效益,还能实现个人赋能。
不过,不同团队有着不同的优化方向。比如说,Anthropic团队专注于编码以及与之相关的智能体。而OpenAI更看重推理能力。我猜测,最广泛被使用的方向将会是快速且自然互动的智能体。这些智能体具备原生多模态能力。它们能够适应日常生活里的不同互动场景。
几年后,我们或许能全天候和AI对话,以此解决生活里碰到的各类问题。伴随技术发展,未来可能会有智能眼镜这类设备出现,届时人与AI的互动会在日常生活中无缝贯穿。
02 智能爆炸,代码将由AI自动编写
许多人觉得,一旦软件工程与AI研究实现完全自动化,便会引发一场智能爆炸。到那个时候,你会拥有数百万个软件工程师的复制品,能在几周或者几个月内达成从Llama 1到Llama 4的研究进展,而不是耗费数年时间。所以,达成闭环的软件工程师(AI)非常关键,这是抢先实现超级人工智能(ASI)的要点。你怎么看?
这是一个极具吸引力的想法,所以我们投入了诸多精力去开发编码智能体。我们不是专门的企业软件公司,而是依据自身需求开发了契合自己的编码和AI研究智能体。我们的目标是推进Llama项目的进程,并且使这种智能体全面融入我们的工具链。
我预计在未来12至18个月,许多与AI相关的代码会由AI自动编写,这个智能体不仅能自动补全部分代码,还能根据目标自动编写代码,自动测试代码,自动改进代码,甚至在某些方面,其性能可能比普通开发者更优秀,这将是AI发展的一个重要方向。
然而,我不觉得这是唯一的方向。AI行业会变得非常庞大,AI能在多个领域发挥作用。一些实验室会专注于企业应用或编程领域,另一些实验室可能侧重于生产力提升、社交、娱乐等领域。未来会有更多针对信息提供和生产力提升的模型,还会出现更多注重陪伴性质的模型。总体而言,AI的应用空间十分巨大。
问:为什么不直接实现超级智能,而首先要开发个人助理?
扎克伯格表示,他通常不完全认同智能会快速爆发,这是因为构建物理基础设施需要时间,比如英伟达生产芯片时,要建造厂房,要获得审批,要确保能源供应,且依赖完整的供应链 。
此外,AI助手的普及需要时间。用户要通过反馈持续学习怎样高效使用这些系统。AI也需要时间去理解用户需求,并持续改进。从长远看,这种共进式的进化是AI发展的核心。
再者,几年前我们在广告团队做过自动化实验排名系统,从这个系统可以看出,哪怕你拥有35亿用户,依旧会遭遇计算以及实验测试资源的瓶颈。我们发觉,就算有诸多想法,实际的计算能力与实验规模常常会制约进一步的发展。所以,AI的全面发展不光依靠编码能力,它还需要基础设施、用户反馈以及供应链等各方面共同推进。
03 AI朋友、治疗师与虚拟伴侣将成现实
问:如何与AI建立健康关系?
这个问题要在观察到相关行为后,才能够更好地回答,最重要的是,从一开始就要关注这个问题,并且在每个阶段都加以考虑,不过我也觉得,过于先入为主地规定什么是不好的做法,或许会限制AI的潜在价值。人们所使用的物品对他们而言具备价值,设计产品的一项核心原则是坚信用户是聪慧的,他们清楚什么对自身生活有价值,尽管有时某些产品或许会出现问题,然而我们要保证在设计时尽力降低这些风险。
我觉得AI会在众多社交任务里被大量运用,实际上,Meta AI已被不少人用来辅助自己与他人展开棘手对话,像“我和女朋友有问题,该怎么谈?”或者“我要和老板谈谈,怎么开口?”,这些应用在诸多情形下都极有帮助 。
随着个性化算法持续进化,AI 对用户的了解会越来越深入,从而变得更具吸引力。我曾做过一项有趣的统计,美国人平均拥有的朋友数量不到三个,而大多数人期望拥有更多朋友,理想数量大概是 15 个。然而在现实中,人们常常因忙碌而难以应对更多社交关系,尽管他们内心深处渴望拥有更多联系人。
有些人担心人工智能会替代现实里的人际关系 我个人觉得 答案或许是否定的 虽说现实中的社交关系具备诸多优点 然而人们常常没有自己期望的那么多联系 很多时候会感到孤单
当然,这个领域尚处在起始阶段。当下,已有一些公司在研发虚拟治疗师或虚拟伴侣类应用,然而技术仍处于极为初始的阶段。此刻打开这些应用,你通常见到的仅是治疗师或人物的静态形象,偶尔会有一些粗陋的动画效果,不过这并非真正的“具身”展现。
我们在Reality Labs的项目,像Codec Avatars,能让你有和真实的人交流的感觉。未来,你能随时随地与AI进行视频通话,身体语言会变得至关重要。毕竟,在真正的交流里,超一半的沟通不是语言,而是非语言部分。
04 DeepSeek模型非常棒,但缺多模态功能
问:你曾提及物理基础设施是个重要瓶颈 ,像DeepSeek这样的开源模型 ,其当前算力规模比不上Meta ,不过该模型在某些方面已接近Llama ,要是中国在基础设施建设 、大规模工业化 、电力扩展及数据中心部署方面做得更出色 ,你会担忧他们在这方面超过我们吗 ?
扎克伯格表示,这的确是一场竞争激烈的较量。如今能够看到,国家层面的产业政策正在发挥功效。中国正在大力开展电力基础设施建设。这就是美国必须加快数据中心建设以及能源生产审批流程的原因。要是我们不加速,或许会处于明显的劣势。
与此同时,我们还看到像芯片出口管制这类措施的确在产生作用。以DeepSeek为例,许多人都夸赞它在底层优化方面表现极为出色,然而这也引发了一个问题,那就是为什么他们非得进行这些优化,而美国的实验室却没这么做。原因是,DeepSeek使用的是受限的英伟达芯片,也就是被限制出口到中国的降规版本 。这迫使他们投入大量精力进行底层优化,以弥补算力上的差距。
DeepSeek在优化方面着实做得出色,其最终的文本模型表现颇为不错。然而当下,每一个处于领先地位的大模型基本都是多模态的,能够同时对图像和语音进行处理。但DeepSeek目前依旧是文本单模态。问题的关键在于:为何他们没有开展多模态相关工作?我觉得,并非是他们做不到,而是由于他们必须将资源优先投入到基础设施的优化之中。
我们把 Llama 4 与 DeepSeek 做对比,实际上在文本能力方面,我们已达到和 DeepSeek 相当的水平,甚至在更小的模型上也实现了类似表现,这意味着在单位成本下实现了更高的智能 。另一方面,在多模态方面,我们领先于 DeepSeek,而 DeepSeek 目前没有这些功能 。
因此,总体而言,Llama 4相较于DeepSeek是更具优势的模型,多数用户也更倾向于选择使用我们的模型。但我们必须得承认,DeepSeek团队确实极为强大。你所提及的关于电力、算力、芯片等方面的可获取性问题同样十分重要,当下所看到的模型性能与创新方向,在很大程度上取决于这些底层资源的可获得性。
05 AI商业化,广告模式与付费服务并行
问:你觉得AI商业化的正确道路是什么?广告有没有可能并非最佳模式?
扎克伯格表示,AI会有各种各样不同的应用,不同的应用场景适合不同的商业模式 。
广告依旧是极为有效的方式,尤其契合提供免费服务的场景。借助广告变现,用户无需付费,广告收入可覆盖服务成本。若广告系统设计精细,不仅能实现盈利,还可提升用户体验,例如通过精准推荐使广告更具价值。当然,这需庞大广告主基础与强大排序系统支撑。
然而,这种模式并非适用于所有AI应用 。对于一些计算成本较高且价值较大的应用 ,比如AI软件工程师助手 ,免费加广告的模式明显不合适 ,反而更适宜采用直接付费的方式 。就如同人们愿意为Netflix或ESPN付费那样 ,那些高价值且高生产成本的内容或服务 ,用户也更乐意为之买单 。
未来,AI相关产品会覆盖全谱系,从完全免费的消费者级工具到需高额付费的专业级服务。Meta会继续推进消费端的免费服务,通过广告实现变现,还会推出付费服务,具备高阶、可扩展计算能力,用以满足更高级别的需求。在这方面,我们的核心价值观清晰明确:我们期望为全球尽量多的人提供服务。
06 软件开发效率提高将释放巨大创造力
问:要是软件开发效率在两年时间里提高到原来的100倍,会出现怎样的情况?哪些当前没办法达成的事情会变成现实?
扎克伯格表示,在过去一百多年间,人类社会发生了转变,此前是以农业为主,人们主要精力用于生存,而后来逐渐有了更多时间去进行创意和文化活动。随着AI提高软件开发效率,这一趋势会进一步增强,进而释放出巨大的创造力。
随着时间不断向前发展,几乎所有人都能够运用如超人般的工具,创造出各式各样不同的事物。所以,我预见到AI工具将会呈现出显著的多样性。其中一部分工具会被用于解决重大难题,比如攻克疾病、推动科学认知进步,或者开发改善我们生活的技术。然而,我同样觉得,许多创造性应用会集中在文化、社交活动以及娱乐领域。
另外,我对未来有一个有趣的想法,AI提高了效率,却不会减少社会对人的需求,相反,它会创造更多就业机会。以Meta为例,我们一直难以为全球35亿用户提供语音客服,主要原因是成本太高。但要是AI能解决90%的问题,剩下部分交给人工处理,就能大幅降低成本,进而让语音客服更具可行性。实际上,AI的运用或许反倒会推动Meta聘请更多的客服工作人员。
又比如,人们曾预测卡车司机会因自动驾驶而失业,然而事实上,当下卡车司机的岗位数量比大约20年前我们刚开始探讨自动驾驶时还要多。总体而言,即便某项技术能够削减某个环节90%的工作量,其最终结果通常是增加了对人力的整体需求,而非减少。(腾讯科技特约编译金鹿)
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275835.html