前一阵c语言实现图像处理,漫画脸生成器火遍全网,仅需几秒钟便可以走进二次元世界,这是哪些魔法?今天就来了解一下动漫脸生成器的实现原理吧!
收到相片后,计算机须要做的第一步就是图象校准:通过锁定人脸五官位置以后,对图象进行剪裁和旋转,以此得到裁切后的相片。
图源:来自作者
第二步则是让计算机去学会画出人物画像,也就是让计算机用它所认识的语言对图象进行表示。不同于人类使用笔触对图象进行勾勒,计算机须要用它的特有工具——数字,对人物画像进行表示。比如人类可以用6色染料去绘画,计算机则要学会用6组数字去画出相片中的人物。
图源:来自作者
和人类学习之路相像,计算机的学画之路也须要通过反复的学习和练习,这个过程称作训练。在训练过程中,计算机须要利用一个称作生成对抗网路(Generative Adversarial Network,GAN)的算法。这个算法包括两部份:一是“生成器”,他如同一个初学书法的中学生;二是“判别器”,他则是资深的书法鉴赏老师。
图源:来自作者
接下来,便是生成器的学画之路。“生成器”先根据他的看法对人物进行描画,通过组合数字得到了第一幅作品,并把作品拿给老师 “判别器”去审查。“判别器”老师将“生成器”的作品和原始人物画像进行比较,老师皱了皱眉头,大声斥责道:“这画的是神仙姐姐吧?回去重写!”
图源:来自作者
“生成器”灰溜溜地跑回家调整了数字,改出一张新画像,又拿给老师“判别器”看。老师看了看作品,又看了看原图,依旧摇摇头说道:“这次如何把小姑娘画成姑娘啦?重画!”
图源:来自作者
就这样,“生成器”在“判别器”的指导下改了一张又一张,这一次次的更改,“师生”之间互为博弈、形成对抗,整个博弈的过程便是机器学习的过程。经过一段时间学习,“生成器”画出了他的最终作品,这张作品是不是与原始人物长得非常相像呢?
图源:来自作者
通过训练这一过程,“生成器”已经蝶变成为一个绘画达人,他不再须要老师“判别器”的指导就可以画出相片中的人物。其表示人物的数字被称为特点编码,特征编码作为计算机和人物图象之间的一项重要桥梁,可以理解为计算机对图象的具象表示。
在特点向量的基础上,第三步是通过调整特点向量将原始图象转化至动漫图。在这个步骤中,计算机首先对大规模的漫画图象进行学习,总结得出动画角色的典型特点;然后依据具体的输入人物图象进行处理,使其在保留原始表情信息的同时转变为动漫形象。这样一来,漫画脸便生成了。
图源:来自作者
如果在第三步中计算机使用不同类型的漫画图象进行学习,那么形成的漫画人物疗效便会有所差别。比如使用卡通动动漫作为学习数据,那么生成的动漫脸也是卡通动漫。
图源:来自作者
漫画生成器的核心技术——生成对抗网路GAN,作为一种精典的神经网路构架,广泛运用在图象生成、图像转换和图片编辑等多个领域。
Phillip Isola等人提出借助GAN将语义图象转化为城市和建筑水景图片、将晚上图转化至街景图、将黑白图片转化成彩色图片等。
图源:参考文献[2]
在GAN的基础上,Jun-Yan Zhu等人建立两个镜像对称的GAN产生环形网络Cycle-GAN,在确保图象与原始图象内容一致的同时将图片转化成不同艺术油画风格的画作品,现阶段好多动漫脸生成器就是借助动漫人物图训练Cycle-GAN来实现。如果将训练数据换为莫奈风格画作,就可以实现相片至莫奈风格的转换;如果将训练数据换为不同马的相片,它还可以将马的图片转化成斑马图;如果将训练数据换为不同季节的景色画c语言实现图像处理,就可以将夏景图转化成冬景图。
图源:参考文献[3]
除了图象风格转移,Tero Karras等人借助GAN改变人脸图象中的特定特点(包括坐姿、脸型、发型等),提出了Style-GAN来生成高多样性人脸数据集。Style-GAN将人脸简略特点(姿势、面部形状)和精细细节(发色、雀斑)自动分离,通过对分级特点的调控实现对人物表情、面部朝向、人物短发、人脸唇色、摄影光照等多个方面的变换。
图源:参考文献[4]
自GAN出现以来,其仍然被学术界和工业界的专家们誉为深度学习中最重要的创新之一。现如今,GAN在图象领域诠释出巨大优势,GAN的出现让以数据为驱动的深度学习方法取得了急速的发展。比如借助GAN合成高精度医学图象,以此来填补因数据欠缺所造成模型性能差的问题,帮助人工智能在医疗确诊领域快速发展。
但是在此项技术蓬勃发展的同时,高逼真度的景色、人物、动物等合成图像大量涌现,也引起了一系列伦理问题和潜在危险。比如借助换脸技术制造假新闻,利用伪造图片误导消费者,人脸加密技术不再绝对安全等问题。技术本没有错,如何借助好技术是人工智能未来发展的一项重要问题。
参考文献
[1] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[2] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
[3] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[4] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4401-4410.
作者:陈瑞敏 上海市2021年度十佳科普使者 中国科学院上海技术物理研究所在读博士