从西部世界到现实：数字人如何实现智能交互与创作？-模具钢网

还记得《西部世界》中那些栩栩如生的仿生人吗？现在，这种赛博朋克的想象正逐渐变为现实。数字人正为人工智能的下一个重大进步提供可能——那就是将面孔与声音相结合，打造出能够交谈的角色——这并非仅仅是将静态图片赋予动态并为其配音，而是能够真正以人类的方式去创作和互动。

这标志着内容产业的一次重大变革。现在，我们需进一步探索数字人领域，深入掌握其核心技术和展望其未来的发展走向。

从静态形象到智能交互的技术演进

为了打造一个能够发声的面部模型，模型必须掌握真实的“音素至视觉元素”的对应关系，即语音（音素）与相应嘴部动作（视觉元素）之间的联系。若这种对应关系出现偏差，嘴型和声音将显得不协调，严重时甚至会出现完全不一致的情况。

设想一下你表达言语时的姿态：在谈话过程中，不仅你的嘴巴会动，你的整张脸、上半身以及双手也会随之做出相应的动作；此外，每个人的说话方式都有其独特性，即便说的是相同的话语，不同人的嘴部表情也会有所差异。若你尝试将你的口型同步数据移植到他人的面部，其效果可能会显得十分不自然。

而这个领域研究已经在过去几年里发生了翻天覆地的变化：

早期技术（2017-2020）：

采用卷积神经网络（CNN）与生成对抗网络（GAN）技术，能够仅凭一张图片创造出静态或简单的动态虚拟形象，然而，这种形象往往存在表情显得生硬、口型与表情不协调等问题。此外，这类技术对数据的依赖性较大，需要大量的面部特写数据，并且生成的图像内容通常仅限于头部特写，无法展现全身动作。

技术突破（2021-2023）：

采用NeRFs（神经辐射场）及3D Morphable Models等先进技术，我们得以实现半身或全身动作的生成。同时，我们巧妙地整合了多种模态模型，将语音合成、自然语言处理以及计算机视觉技术融合，从而达成了音素与视素之间的映射。

大模型时代（2024至今）：

Transformer、扩散模型以及DiT（一种基于Transformer架构的扩散模型）正为数字人带来从“形似”到“神似”的飞跃能力。Transformer能够分析语音韵律和肢体语言的广泛联系，扩散模型通过噪声的迭代过程创造出逼真的细节（例如皱纹和发丝），而DiT则通过联合建模技术超越了分辨率和复杂场景的限制，从而使数字人能够实现实时交互、情感驱动以及跨模态的一致性。

总体来看，现在的模型在灵活性上有了显著提升，同时在性能上也更为出色。它们能够在同一视频片段中生成包括半身和全身在内的运动画面，以及逼真的说话表情和动态背景。这些新型的模型，与传统的文本到视频模型相似，它们是在更大的数据集上训练出来的，并运用了多种技术来确保在复杂的运动场景中，唇形同步的精确度得到保障。

今年二月推出的OmniHuman-1型号，首次展现了这一技术演进趋势（该型号现已登陆Dreamina平台）。此外，该行业的技术更新换代速度极快——仅在今年三月，Character-3型号便在众多应用场合中展现了卓越的性能。

该模型同样适用于非人类形象，比如那款“能言善道的Waymo”，并且支持用户通过文字指令来调节角色的情感与行为——这一点便引出了AI动画领域的应用实例。以下展示的视频是由一张起始图像帧和一段音频素材合成的。在这个视频中，角色的嘴唇动作、面部表情以及上半身的动作均由Hedra模型负责生成。请留意观看，背景中的角色也能进行自然流畅的活动。

现实应用：多领域渗透与商业化探索消费者市场

数字人工具的问世使得任何人都能通过一张图片轻松打造动画形象，这不仅极大地激发了人们的创造力，还显著降低了数字角色的制作成本。观察其应用领域，不仅限于常规的叙事视频，这项技术还可拓展至AI主播、播客节目，以及音乐视频、动画视频等多种类型的内容创作。这种“全民造人”的趋势，正引领着内容生产方式的革新。

数字人的实时直播操作愈发简便，或许某些企业会将数字人定位为用户界面的核心要素。设想一下，一个面容生动、个性鲜明的实时“AI教练”将如同真人般伴随你的学习过程。目前，已有企业开始尝试这一模式，并且随着技术的持续进步，交互体验将变得更加顺畅自然。

中小企业领域

数字人代言广告已逐渐成为主流应用领域之一。企业无需再聘请演员或组建专业制作团队，便能借助逼真的AI形象进行产品推广。这一变革为那些过去难以承担传统广告制作费用的小型企业开辟了新的广告营销渠道。特别是在电商、游戏以及消费类应用等行业，这种模式深受青睐。

在国内，内容营销领域普遍存在不少难题，诸如成本负担重、创意遭遇瓶颈、需要处理多种语言等问题。然而，数字人的问世，为众多中小企业开辟了一条“降低成本、提高效率”的新路径。比如，从事跨境电商的品牌可以利用“数字人直播系统”，只需每月投入数千元，就能创造出能说多国语言的虚拟主播，从而显著减少人力成本。

在内容营销领域，数字人的角色同样不可或缺。无论是通过一键式操作生成推广产品的短视频，还是通过IP化策略运营，制作品牌故事短剧，抑或是实现营销材料的自动化处理以及激活私域流量，这些都能高效地完成对客户的个性化拓展。

大型企业领域

员工在学习和能力提升方面，多数大型企业会制作一系列培训和教育视频，这些内容广泛涉及新员工入职指导、法律法规培训、产品使用教程以及技能增强等多个领域。借助AI技术，尤其是数字人的应用，这些培训流程得以实现自动化，从而显著提升了内容制作的效率与规模化水平。此外，对于某些特定岗位，持续的基于视频的培训是必要的，比如通过数字人模拟销售谈判场景，帮助员工掌握相应的沟通技巧。

高管形象塑造方面，高管们能够复制自身形象，为员工或客户量身定制个性化内容，以此增强个人影响力。企业不必每次产品发布或发表感谢致辞时都进行拍摄，转而可以生成逼真的CEO或产品负责人的虚拟替身。不少公司正积极尝试，以便行业领袖能更轻松地与那些以往难以直接交流的群体进行一对一的互动和解答疑问。

技术难点与挑战

构建一个栩栩如生的AI虚拟形象充满挑战，每一个细节的逼真度都遭遇着不同的技术难关。这不仅仅是为了规避“恐怖谷效应”的困扰，跨过拟人化的界限，还必须攻克动画制作、语音合成以及实时渲染等领域的根本性问题。

从目前来看：

数字人的面部表情在不同画面间的流畅度有待提升，同时，对情境中表情的识别与呈现也面临重大难题——比如，当虚拟角色表达“我感到疲惫”时，能否自然地展现出打哈欠的动作。

确保唇部动作与语音内容精准匹配是一项颇具挑战性的任务，众多企业正积极投身于这一难题的攻克。以OmniHuman模型为例，它通过庞大的数据集进行深度训练，成功探索出一种基于音频数据来精确调控面部帧生成的技术。

在身体特征方面，新型的数字人模型已具备完整的身体结构，并且能够执行各种动作，然而，在推广至大规模应用以及将相关技术传递给用户的过程中，目前尚处于初步的探索阶段。

虚拟形象并非孤立存在，因此其背景的营造也成为了重要的挑战。在这一过程中，周围环境的照明、深度以及交互体验均需与整体场景保持一致。在最佳状态下，数字人甚至应具备与周围物体互动的能力，比如拿起某个物品。

当前，市面上支持对话的数字人产品普遍允许用户上传资料或将其与知识库相连。展望未来，更先进的数字人有望拥有更卓越的记忆能力以及鲜明的个性特点。

确保以极低的延迟将所有这些数据传输出去并非易事，在此领域，我们还有很大的进步空间。

此外，数字人产业链的各个部分之间相对独立，缺乏有效的协作，这造成了数字人在制作和优化方面存在较大的技术障碍。同时，数字人在运行时需耗费大量计算资源，并且必须由专业团队进行维护与管理，这无疑提高了企业的运营成本。

总体而言，在数字人技术应用于企业并逐步落地的过程中，面临着技术发展瓶颈和产品设计上的诸多限制，这使得其难以迅速帮助企业实现业务的实质性增长，进而获得广泛的认可和价值肯定。此外，AI领域的一个关键问题——隐私保护，也需引起重视。数字人的智能交流功能需要依托于对海量数据的搜集与深度分析，这些数据包括用户的个人资料、日常行为模式、兴趣爱好等多个方面；在智能数字人的训练与用户互动环节，个人信息的处理也是不可或缺的环节。因此，如何保障数字人创造内容的合规性及安全性，以及预防数据泄露和不当使用，这些问题同样不容忽视。

未来我们希望看到什么样的数字人？

以下是一些当前最受关注的重点方向：

角色一致性与形态转换

数字人一直以来多呈现单一且固定的形象，这包括静态的服饰、姿态以及所处的环境。然而，近期一些产品已开始丰富选择，提供更多样化的选项。若能更便捷地依照用户心愿随意调整虚拟形象，无疑将大大提升用户体验。

更精细的动作与更丰富的表情

面部特征长久以来都是数字人的不足之处，常常显得不够灵活且缺乏活力。然而，如今它们已能展现出更为自然的外貌和更加丰富的表情。展望未来，数字人或许能够解读脚本中的情感元素，进而作出适宜的回应。

除此之外，多数数字角色的下半身动作幅度较小，即便是基本的手势都难以完成。手势的控制往往依赖于预设的程序，比如用户可以为视频中的不同部分挑选不同的肢体动作类型。展望未来，我们有望看到更加自然且智能的动作识别技术，这将使得数字角色的肢体动作更加生动自然。

与现实世界互动

目前，数字人尚不能与周边环境进行有效互动。近期，一个可期待的目标是让它们在广告中展示产品。在这方面，一些模型已经取得了一定的成就。

在实时互动领域，数字人的应用范围极为宽广。比如，我们能够与AI医生进行视频问诊，借助AI销售助手的指引来挑选心仪的商品，亦或是通过视频与心爱的电视剧角色实现即时交流。尽管在延迟和稳定性上，它们目前还未能完全达到真实人物的水平，但已经非常接近了。

当前，底层模型的技术水平已有显著提高，能够产出品质较高、观感较佳的数字人形象。此外，得益于算法的持续优化、计算能力的增强以及数据资源的日益丰富，AI数字人在互动、情感传达及个性化服务等领域亦实现了显著进步。据此，我们有理由相信，AI数字人在应用领域将迎来快速发展的新机遇。

本文来自微信公众号，作者：洪杉，36氪经授权发布。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275897.html

从西部世界到现实：数字人如何实现智能交互与创作？

相关推荐

联系我们