来源时间为:2022-10-10
有了这个工具,自导自演皮克斯动画不再是梦
关注2022-10-1012:38来源:澎湃新闻·澎湃号·湃客字号
机器之心报道
编辑:张倩
这个框架能将人物视频转成动画,还是高清、高度可控的。
在社交网络、短视频平台上使用卡通头像录制视频是很多人喜欢的玩法,但我们也会发现一些问题,比如头像调整范围比较窄,和本人没有那么像等。
近日,来自新加坡南洋理工大学的一项相关研究在reddit、推特上都收获了上千的点赞量。他们开发了一个能够进行可控高分辨率人像视频风格转换的框架——VToonify,在风格控制的灵活性、生成视频的质量、时间上的连贯性等方面都有着出色的表现。
你可以根据自己的需要灵活调整生成的风格类型以及卡通化的程度等指标:
从demo中可以看出,VToonify生成的这些人像不仅具有高度可调的卡通风格,而且包含了人像的很多细节,有一种千人千面的感觉。因此,不少网友表示,有了这个工具,动画电影做起来岂不是很容易?
还有人畅想将其应用到VR领域。
当被问及能否当实时滤镜用时,作者表示:目前模型还很大,做到实时还需要一些工程努力。
以下是完整的demo视频:
论文概览
论文链接:https://arxiv.org/pdf/2209.11224.pdf
项目链接:https://github。com/williamyang1991/VToonify
demo链接:https://huggingface.co/spaces/PKUWilliamYang/VToonify
colab链接:https://colab.research.google。com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb
生成高质量的艺术人像视频是计算机图形学和计算机视觉中的一个重要任务。虽然基于强大的StyleGAN,研究者们已经提出了一系列成功的人像卡通模型,但这些面向图像的方法在应用于视频时存在明显的局限性,如固定帧大小、人脸对齐要求、缺少非面部细节和时间不一致等。
也就是说,一个高效的视频卡通化方法需要克服以下挑战:
能够处理未对齐的人脸和不同的视频大小,以保持运动自然。增大视频尺寸或使用广角可以捕捉更多的信息,防止人脸移动出帧;
为了匹配目前广泛使用的高清设备,生成的视频要有足够高的分辨率;
要想构建一个实用的用户交互系统,新方法应该提供灵活的风格控制,让用户调整并选择自己喜欢的风格。
为了满足以上需求,研究者们提出了专门用于视频卡通化的混合框架——VToonify。
具体来说,他们首先分析了StyleGAN的平移同变性,这是克服「固定帧大小」局限性的关键。如下图2(c)所示,VToonify结合了基于StyleGAN的框架和图像转换框架的优点,实现了可控的高分辨率人像视频风格转换。
他们采用[PinkneyandAdler2020]的StyleGAN架构进行高分辨率的视频风格转换,但通过删除固定大小的输入特征和低分辨率层来调整StyleGAN,构建了一个全新的全卷积编码器-生成器架构,类似于图像转换框架中的架构,支持不同的视频大小。
除了原始的高级风格代码外,他们还训练编码器提取输入帧的多尺度内容特征作为生成器的附加内容条件,以便在风格转换过程中更好地保存帧的关键视觉信息。
他们遵循[Chenetal.2019;Viazovetskyietal.2020]的做法,在合成的配对数据上蒸馏StyleGAN。
此外,他们还进一步提出了基于单一合成数据模拟相机运动的闪烁抑制损失来消除闪烁。
因此,VToonify无需真实数据、复杂的视频合成和显式的光流计算,就可以学习快速连贯的视频转换。
不同于[Chenetal.2019;Viazovetskyietal.2020]中标准的图像转换框架,VToonify将StyleGAN模型合并到生成器中,以蒸馏数据和模型。因此,VToonify继承了StyleGAN的风格调整灵活性。通过重用StyleGAN作为生成器,研究者只需要训练编码器,大大减少了训练时间和训练难度。
根据上述做法,研究者提出了基于两个代表性StyleGAN主干——Toonify[PinkneyandAdler2020]和DualStyleGAN[Yangetal.2022]——的两种VToonify变体,分别用于collection-based和exemplar-based的人像视频卡通化。
前者根据数据集的整体风格对人脸进行风格化,而后者则使用数据集中的一张图像来指定更精细的风格,如图1的右上角所示。
研究者通过采用DualStyleGAN的风格控制模块[Yangetal.2022]来调整编码器的特征,并精心设计数据生成和训练目标。VToonify继承了DualStyleGAN灵活的风格控制和风格程度的调整,并进一步将这些功能扩展到视频(如图1右上角所示)
collection-based人像视频风格转换
在collection-based人像视频风格转换中,研究者利用具有代表性的Toonify作为主干,它使用原始的StyleGAN架构,并仅以风格代码为条件。
如图4所示,collection-basedVToonify框架包含构建在Toonify之上的编码器??和生成器??。??接受视频帧并生成内容特征,然后将这些特征输入??以生成最终的风格化人像。与现有的使用整个StyleGAN架构的基于StyleGAN的框架不同,他们只使用最高级的11层StyleGAN来构建??。正如[Karrasetal.2019]中所分析的,StyleGAN的低分辨率层和高分辨率层分别主要捕获与结构相关的风格和颜色/纹理风格。因此,??的主要任务是对内容特征进行上采样,并为它们渲染风格化的颜色和纹理。
exemplar-based人像视频风格转换
在exemplar-based人像视频风格转换中,研究者使用DualStyleGAN作为主干,它向StyleGAN添加了一个外部风格路径,并以内部风格代码、外部风格代码和风格程度为条件。内部风格代码描述了人脸的特征,外部风格代码描述了艺术人像外部的结构和色彩风格。结构风格度??_??和颜色风格度??_??决定了所应用风格的强度。
exemplar-based框架和上面提到的collection-based框架有很多共同之处,它通过两方面修改来实现灵活的风格控制,一是借助ModifiedModRe实现结构风格控制,二是添加了Style-Degree-Aware融合模块。完整架构如图9所示。
实验结果
实验结果表明,VToonify生成的风格化帧不仅与主干帧一样质量高,而且更好地保留了输入帧的细节。
更多细节请参见原论文。
?THEEND
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin。com
原标题:《自导自演皮克斯动画不再是梦,这个工具实现了高分辨率、高度可控的真人视频转动画》
特别声明本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper。cn。