6月17日,智东西发布消息,豆包电脑版及网页版正式推出AI播客功能。用户只需上传PDF文件或网页链接,即可轻松制作出包含双人对话的播客节目。
智东西在产品上线后立即对豆包AI的播客功能进行了实际操作测试。测试结果显示,豆包能够在短短3秒内将一篇包含8万词汇的英文文档转换成播客节目。用户可以在对话界面中收听这些播客,而在收听的同时,豆包还能同步生成后续的内容。
豆包推出的AI播客节目采用男女搭档的访谈模式,能够对用户上传的网页和文件进行深度加工,从而让内容更加符合听众的口味。
AI播客的对话节奏自然流畅,其中融入了丰富的语气词、应和以及停顿,这些元素完美地再现了真人博客的口语风格,显著增强了拟人感。据智东西透露,这两个声音是由字节公司与专业的播客制作人共同协作创作的。
然而,在具体测试过程中,我们注意到豆包AI播客存在一些问题。比如,它制作的内容信息量并不充足,同时充斥着众多雷同的句式和语气词。这样的特点在连续收听一段时间后,可能会让听众感到内容较为单一。
近期,智东西与字节跳动语音中台的主管郑炜明有过深入沟通,郑炜明向智东西透露了相关信息。他表示,将来豆包AI播客的听觉享受将得到显著提升,它将不再局限于简单的播放,而是将融入观点的互动与交锋。目前,团队正致力于研发多样化的音色,并探索音色复制、风格定制等创新功能,同时,播客支持的语种也将突破中文的局限。
之前,豆包·AI播客模型已经成功部署在字节跳动集团旗下的AI Agent平台——扣子空间,并且具备了通过简短指令即可创建播客的能力,它能自行搜索相关主题,并生成播客内容。
一、8万词PDF文件秒出播客,还能自主给节目“划重点”
豆包AI播客的入口设置在输入框的下端,点击该入口,用户将看到两个可供选择的操作。他们可以选择上传文件,或者将网页内容分享至豆包。然而,目前豆包AI播客仅限于接收PDF格式的文件进行上传。
首先,让我们来试听一下生成的效果。智东西将一份包含8万余字、共计140页的起诉书上传至豆包,豆包在短短数秒内解析完文件,随即提供了一款可供收听的播客播放器和一张播客封面图。整个播客的生成过程大约需要1到2分钟,用户在等待的同时可以继续收听,不会影响他们的收听体验。
经过对众多案例的实际测试,智东西团队观察到豆包生产的AI播客普遍呈现出一种固定的规律——女性主持人主要承担着掌控播客流程、发起提问等职责,而男性主持人则主要负责对核心内容的叙述。
豆包AI播客制作的节目语言风格偏向日常口语,听众在收听时几乎无法察觉到原始文件中那种正式甚至略显生硬的表达。即便智东西上传的是英文资料,翻译出来的内容也丝毫没有翻译的痕迹。
在具体的收听过程中,我们能够察觉到AI主播们会通过改变语速等手段来突出关键信息。同时,豆包还会巧妙地运用语气词以及带有情感的评述,从而提升了播客的亲切感和真实感。
在网页直播播客的场合,豆包AI播客能够呈现良好的效果,它不受网页中无关信息的干扰,大体上能够精确地展现网页的核心内容。
在智东西之前参与的测试活动中,豆包曾在网页的地址栏的右侧位置设置了“网页播客”的接入点,然而,在正式的公测版本中,该功能尚未被启用。
二、在可定制性和信息密度方面,仍有进一步改进的余地,未来或许会加入多人讨论和单人播客的功能。
豆包AI播客的当前提示词设定是既定的,用户尚不能提供关于播客制作方面的更细致化建议,因此在可调整性方面,系统仍有进一步改进的余地。系统所提供的提示词相当简洁,仅是“请生成播客”。
用户目前尚不能直接将豆包AI播客的生成内容导出。若用户有下载播客的需求,可前往“扣子空间”进行操作体验,在那里,豆包AI播客及其封面均可被导出,同时用户还能查看详细的逐字稿。
智东西对豆包生成的AI播客时长进行了多种文本长度的测试。结果显示,豆包制作的节目时长最长不超过10分钟,大部分时长维持在5分钟左右。这一现象引发了一系列问题:用户若上传信息量大的长文档,播客内容可能会被过度压缩或删减;而上传简短内容时,豆包生成的播客时长却会不自然地延长至两三分钟。
在第一部分的测试案例里,长文档的后半部分内容被彻底删减。在接下来的案例中,智东西向豆包发送了一篇字数超过百字的简讯,鉴于信息量原本就不多,生成的结果自然显得较为单薄。其中包含了许多语气词、口语化的表达以及模式化的问答,这些都使得信息密度有待进一步提升。
此外,豆包平台所提供的AI播客功能无法对材料中原有的讨论话题进行拓展,也无法提供相关的背景资料,这种情况可能会使得播客在内容的深度和广度上存在不足之处。
结语:AI播客已成热门赛道
近期,AI播客领域虽属小众,却吸引了众多企业的关注与投资。字节跳动旗下的豆包AI播客崭露头角,而国内领先的播客平台小宇宙则通过MiniMax语音技术,进行了外语播客一键翻译成中文的测试。与此同时,海外的谷歌NotebookLM播客功能也赢得了众多忠实用户的青睐。
我国播客市场正以全球最快的速度增长。据预测,到2025年,中文播客的听众数量将达到1.5亿以上。人工智能技术在播客领域的应用,不仅为创作者带来了便利,也为听众提供了更加多样化的收听选择,从而有望进一步挖掘这一市场的巨大潜力。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/276014.html