密歇根州立大学张益萌：个性化多人图像生成的研究探索-模具钢网

本文的首要作者是来自密歇根州立大学计算机科学系的博士生张益萌，他同时也是OPTML实验室的一员。张益萌的指导老师是刘思佳助理教授。这项研究的主要工作是在张益萌在字节跳动公司实习期间完成的。

扩散模型，即DMs，目前已经成为文本生成图像领域的关键驱动力。其令人叹为观止的图像生成能力正在逐渐革新艺术创作、广告设计以及社交媒体内容的制作流程。现在，仅凭一段文字，就能轻松制作出风格独特、个性鲜明的头像，这一现象已变得司空见惯。

但，如果我们想要的不只是 “一个人” 的照片呢？

在缺少朋友的聚会上，我们能否“填补”一张全员到齐的合照？在广告拍摄中，我们能否随意搭配多个虚拟形象，编织一个涉及多角色的故事？个性化多人图像的生成正逐渐开辟出一片新的创意天地。然而，这也随之带来了技术上的巨大挑战。

其中最为复杂的问题，便是身份信息泄露——原本是两个不同的人，却因特征混淆，制造出了看似“融合”的人脸，让人难以区分彼此。不仅如此，用户还期望能够精确地标注每个人的具体位置和动作，以实现更加自然和真实的画面构图，以及富有创意和趣味性的互动。然而，一旦位置出现偏差，原本的故事氛围便会大打折扣。

从单人走向多人，挑战也随之升级

当前，单人照片的个性化制作技术已能呈现出令人叹为观止的视觉效果。然而，一旦我们尝试制作多人互动的照片，问题就变得复杂起来。

OMG [1] 是最早尝试解决身份信息泄露（ID 泄露）问题的技术之一。其核心策略分为两个阶段：首先，生成一张不包含任何身份信息的原始图像；接着，利用分割模型来识别图像中的人像区域；最后，逐一将身份特征添加到这些区域中。思维逻辑明确，但问题接连不断：在复杂的情境中，分割模型往往难以正常运作；不同阶段之间的风格未能保持一致，导致整体画面显得不连贯；更关键的是，每个人都需要独立进行去噪处理，参与人数越多，生成速度越慢，用户体验也越差。

InstantFamily [2] 采取了一种不同策略，它试图通过应用注意力掩码技术来调整注意力机制，在生成过程中确保每个像素仅关注与其身份相匹配的特征向量。尽管这种方法在提升效率方面取得了一定进展，然而，身份信息泄露的问题依旧难以彻底消除。其根本原因在于：首先，人脸遮挡不精确或者人物距离过近，容易导致特征信息的混淆；其次，注意力和卷积神经网络的结构设计上，存在着信息错位的潜在风险。

为此，我们提出了全新方案 ——ID-Patch。

这是一项专为多人图像设计的“身份与位置”关联系统，其核心宗旨在于确保每位参与者都能站在正确的位置，并且呈现出本来的风貌。

ID-Patch：致力于多人图像生成领域，针对身份与位置对齐的技术策略

我们的设计思路很直观，将人脸信息拆解为两个关键模块：

特别值得一提的是，ID Patch 不仅能起到“位置标识”和“身份定位”的双重功效，它还向模型传达了“人物与地点的关系”，同时，它还协助模型在众多 ID Embedding 中精准地挑选出那些蕴含更多详细信息的相关身份向量。

此外，ID-Patch 还具备将姿态图、边缘图、深度图等多种空间信息灵活整合的能力，能够轻松适应各种复杂环境，同时确保了识别的准确性以及广泛的适用性。

实验效果：又快又准，一步到位！

图表显示，ID-Patch在身份相似度（identity resemblance）以及身份与位置匹配度（association accuracy）两项关键指标上均有上乘表现，具体数值分别为0.751和0.958，这充分证明了它在确保人物面部特征保持一致及精确定位方面的卓越能力。在文本对齐这一环节，不同方法的表现彼此接近，彼此间的区别并不明显；然而，在生成效率这一指标上，ID-Patch却以绝对优势脱颖而出，成为所有方法中速度最快的。

值得注意的是，当图中人脸数量上升时，OMG和InstantFamily的性能显著下滑，这主要是由于身份信息泄露问题变得更加严重；相比之下，ID-Patch的表现则显得更加稳定，尽管性能也有所下降，但下降幅度相对较小。这种减少主要源于人脸数量增加导致每张人脸在图像中的占比减小，这进而影响了SDXL模型对脸部细微特征的还原能力。另外，随着人脸数量的增多，对面部特征的提取要求也随之提高，这导致生成时间有所增加。

在速度方面，ID-Patch 的优势尤为突出：

无论是还原的精确性、定位的准确性，还是生成的速度，ID-Patch 都呈现出了令人称心的表现！

面部特征仍有提升空间，未来可期！

当前模型所处理的人脸特征或许仍包含光照和表情等因素，这些因素尚未与身份信息完全分离，这或许会在一定程度上对生成图像的质量和稳定性造成影响。为此，我们计划引入更多同一身份在不同光照和表情条件下的图像，以增强训练数据的多样性。这种数据增强技术有望助力模型更有效地掌握在多种情境下维持自身身份特征的能力，进而显著增强生成图像的逼真度与细节描绘力。

总结与展望

总体而言，ID-Patch 正在重塑多人物图像生成的边界。

我们研发的全新技术ID-Patch，在多身份和多人物图像生成领域取得了显著进展——它不仅极大地提升了人物身份的还原质量，而且极大地增强了对于生成图像中每位人物位置精确控制的力度。其关键革新体现在：我们先将每位角色的个性特点融入独立的图像模块，再利用ControlNet技术将这些“个性模块”精准地安置于指定区域，从根本上解决了以往方法中普遍存在的身份信息泄露难题。

更进一步，ID-Patch 具备卓越的兼容性与扩展性，能够与姿态控制、深度图等多种空间条件实现无缝对接，展现出出色的泛化能力。实验数据表明，在三人或三人以上的复杂图像生成环境中，ID-Patch 表现始终优异，为生成式AI在合影、社交图像、虚拟人物布局等领域带来了全新的使用体验。

更精彩的未来，正在开启。

我们坚信，在未来的探索中，我们将面临更为宽广的领域：例如，通过整合同一人物从不同视角的影像资料，来提升面部重构的精确度；再如，运用 patch 技术，对人物的位置和表情进行精确操控，使得合成的图像更加逼真、鲜活，充满温度。

参考文献

Kong，Zhe等人共同发表的论文，题为“Omg：在扩散模型中实现遮挡友好型个性化多概念生成”，该论文收录在2024年欧洲计算机视觉会议上，由Springer Nature Switzerland出版社在Cham出版。

Kim等人发表了一篇名为《Instantfamily：针对零样本多ID图像生成的掩码注意力机制》的论文，该论文以arXiv:2404.19427为编号，收录于arXiv预印本库中，发布于2024年。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275851.html

密歇根州立大学张益萌：个性化多人图像生成的研究探索

相关推荐

联系我们