随着深度学习的发展,机器已经可以生成具有大师风格的绘画作品。图1是德国图宾根大学的Gatys等人利用卷积神经网络合成的具有独特风格的图片,其中左上角是原图片(图宾根小城),余下三幅为将原图转换成不同风格后的生成结果。在每幅作品中,左下角的小图为提供风格的三幅名画,作者分别为约瑟夫·特纳、文森特·梵高和爱德华·蒙克。神经网络将这些名画的风格提取出来,并应用到原图片上,就生成了具有相应风格的作品。
图1:计算机将一幅图片改造成不同风格[1]
那么,如何提取一幅画的风格呢?或者说,一幅画的风格到底意味着什么呢?Gatys等人发现,对于一个以目标分类(如对鸟、花、虫、草的区分)为目的的卷积神经网络,网络中神经元的激发值更多代表图片的内容,因此可称为内容向量;而不同卷积核输出之间的相互关系代表了风格,因此可称为风格向量。这是个很有趣的发现,意味着如果有两幅图,他们经过神经网络后得到的内容向量相近,则这两幅图将呈现相似的内容;类似的,如果两幅图经过神经网络后在某一层得到的风格向量相近,它们将呈现相似的风格。
有了这些知识,就可以生成内容和A相似,但风格和B相似的图片了。怎么做呢?Gatys等人的方法是从一个完全随机的图片开始,一点点修改每个象素的值,修改的目标是使得图片经过卷积网络后,生成的内容向量和A的内容向量相近,而风格向量和B的风格向量相近。这样一点点修改,最终就得到了内容是A而风格是B的图片了。Gatys等人用梯度下降法实现了这一迭代修改过程。
Gatys等人的方法是一种优化法,效率较低。Johnson等人用一个前向网络直接实现风格转换,可以极大提高生成效率[2]。近年来,基于对抗生成网络(GAN)的风格转换得到了广泛应用,实现了更为丰富和神奇的风格转换[3,4]。图2给出了一个基于循环对抗生成网络(CycleGAN)进行风格转换的例子。
图2:基于对抗生成网络的风格转换[3]
不论哪种方法,机器可以挥毫泼墨的根本原因还是对图片的有效表征。有了这些表征,我们就得到了这幅图片的基础信息,进而可以进行很多有价值的处理,风格转换只是诸多应用之一。
参考文献:
[1] Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2414-2423.
[2] Johnson J, Alahi A, Fei-Fei L. Perceptual losses for real-time style transfer and super-resolution[C]//European conference on computer vision. Springer, Cham, 2016: 694-711.
[3] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.
[4] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.
By:清华大学 王东