所在的位置：开心果 >> 开心果营养 >> 图像风格迁移NeuralStyle简

图像风格迁移NeuralStyle简

作者：李嘉铭

NorthwesternUniversity

量子位已获授权编辑发布

面向读者：没有或有一定机器学习经验并对Prisma之类的app背后的原理感兴趣的读者。比较有经验的读者可以直接参照原文罗列的引用论文。

阅读时间：10-20分钟

注：多图，请注意流量。

△图像风格迁移科技树

序：什么是图像风格迁移？

先上一组图吧。

以下每一张图都是一种不同的艺术风格。作为非艺术专业的人，我就不扯艺术风格是什么了，每个人都有每个人的见解，有些东西大概艺术界也没明确的定义。如何要把一个图像的风格变成另一种风格更是难以定义的问题。

对于程序员，特别是对于机器学习方面的程序员来说，这种模糊的定义简直就是噩梦。到底怎么把一个说都说不清的东西变成一个可执行的程序，是困扰了很多图像风格迁移方面的研究者的问题。

在神经网络之前，图像风格迁移的程序有一个共同的思路：分析某一种风格的图像，给那一种风格建立一个数学或者统计模型，再改变要做迁移的图像让它能更好的符合建立的模型。

这样做出来效果还是不错的，比如下面的三张图中所示，但一个很大的缺点：一个程序基本只能做某一种风格或者某一个场景。因此基于传统风格迁移研究的实际应用非常有限。

景色照片时间迁移

改变了这种现状的是两篇Gatys的论文，在这之前让程序模仿任意一张图片画画是没法想象的。

△第一个基于神经网络的图像风格迁移算法，生成时间：5-20分钟

这篇文章中你不会看到数学公式，如果想要更加详细了解其中的数学的话可以阅读原论文。

我想试着从头开始讲起，从Gatysetal.,a和Gatysetal.,b中用到的一些技术的历史开始讲起，用最简单的方法说清楚基于神经网络的图像风格迁移的思路是什么，以及Gatys为什么能够想到使用神经网络来实现图像风格迁移。

如果大家对这个感兴趣的话，我将来可以继续写一些关于NeuralStyle最新的一些研究的进展，或者其他相关的一些图像生成类的研究，对抗网络之类的。写的有错误的不到位的地方请随意指正。

NeuralStyle元年前20年-前3年

要理解对于计算机来说图片的风格是什么，只能追根溯源到年以及之前的图片纹理生成的研究上。明明是图像风格迁移的文章，为啥要说到图片纹理？在这儿我先卖个关子吧。

据我所知，在年前所有的关于图像纹理的论文都是手动建模的，其中用到的最重要的一个思想是：纹理可以用图像局部特征的统计模型来描述。没有这个前提一切模型无从谈起。什么是统计特征呢，简单的举个栗子――

这个图片可以被称作栗子的纹理，这纹理有个特征，就是所有的栗子都有个开口。

用简单的数学模型表示开口的话，就是两条大概某个弧度的弧线相交嘛，统计学上来说就是这种纹理有两条这个弧度的弧线相交的概率比较大，这种可以被称为统计特征。

有了这个前提或者思想之后，研究者成功的用复杂的数学模型和公式来归纳和生成了一些纹理，但毕竟手工建模耗时耗力，（通俗的说，想象一下手工算栗子开口的数学模型，算出来的模型大概除了能套用在开心果上就没啥用了。。。）当时计算机计算能力还没现在的手机强，这方面的研究进展缓慢，十几年就这么过去了。

早期纹理生成结果

与此同时，隔壁的图像风格迁移也好不到哪里去，甚至比纹理生成还惨。

因为纹理生成至少不管生成什么样子的纹理都叫纹理生成，然而图像风格迁移这个领域当时连个合适的名字都没有，因为每个风格的算法都是各管各的，互相之间并没有太多的共同之处。

比如油画风格迁移，里面用到了7种不同的步骤来描述和迁移油画的特征。又比如头像风格迁移里用到了三个步骤来把一种头像摄影风格迁移到另一种上。

以上十个步骤里没一个重样的，可以看出图像风格处理的研究在年之前基本都是各自为战，捣鼓出来的算法也没引起什么注意。相比之下Photoshop虽然要手动修图，但比大部分算法好用多了。

头像风格迁移

油画风格迁移

同一个时期，计算机领域进展最大的研究之一可以说是计算机图形学了。（这段有相关知识的可以跳过，不影响之后的阅读。）简单的来说计算机图形学就是现在几乎所有游戏的基础，不论是男友1(战地1)里穿越回一战的战斗场景，还是FGO之类的手游，背后都少不了一代又一代的图形学研究者的工作。

在他们整日整夜忙着研究如何能让程序里的妹纸变成有血有肉的样子的时候，点科技树点出了一个重要的分支：显卡（GPU）。

游戏机从刚诞生开始就伴随着显卡。显卡最大的功能当然是处理和显示图像。不同于CPU的是，CPU早期是单线程的，也就是一次只能处理一个任务，GPU可以一次同时处理很多任务，虽然单个任务的处理能力和速度比CPU差很多。

比如一个x的超级马里奥游戏，用CPU处理的话，每一帧都需要运行x=i，而GPU因为可以同时计算所有像素点，时间上只需要1步，速度比CPU快很多。

为了让游戏越来越逼近现实，显卡在过去20年内也变得越来越好。巧合的是，显卡计算能力的爆炸性增长直接导致了被放置play十几年的神经网络的复活和深度学习的崛起，因为神经网络和游戏图形计算的相似处是两者都需要对大量数据进行重复单一的计算。

可以说如果没有游戏界就没有深度学习，也就没有NeuralStyle。所以想学机器学习先得去steam买买买支持显卡研究（误）。

ImageNet物体识别比赛中使用GPU的队伍数量逐年上升，错误率逐年下降

提到神经网络我想稍微讲一下神经网络（特别是卷积神经网络）和传统做法的区别，已经有了解的可以跳过本段。卷积神经网络分为很多层，每一层都是由很多单个的人工神经元组成的。可以把每个神经元看作一个识别器，用刚刚的栗子来说的话，每一个或者几个神经元的组合都可以被用来识别某个特征，比如栗子的开口。

在训练前它们都是随机的，所以啥都不能做，训练的过程中它们会自动的被变成一个个不同的识别器并且相互组合起来，大量的识别器组合起来之后就可以识别物体了。整个过程除了一开始的神经网络的设计和参数的调整之外其他全是自动的。

这里我们就不介绍神经网络(NeuralNetwork)和卷积神经网络(ConvolutionalNeuralNetwork)具体怎么工作的了，如果对于神经网络具体怎么工作不了解的话，相信网上已经有很多很多相关的介绍和教程，有兴趣的可以去了解一下，不了解也不影响本文的阅读。

卷积神经网络图例

NeuralStyle元年前3年-前1年

-年的时候深度学习刚开始火，火的一个主要原因是因为人们发现深度学习可以用来训练物体识别的模型。

之前的物体识别模型有些是用几何形状和物体的不同部分比较来识别，有些按颜色，有些按3d建模，还有一些按照局部特征。

传统物体识别算法中值得一提的是按照比较局部特征来识别物体，其原理如下。比如我们的目标是在图片之中找到这个人：

目标物体

对于程序而言这个人就是一堆像素嘛，让它直接找的话它只能一个个像素的去比较然后返回最接近的了（近邻算法）。

但是现实中物体的形状颜色会发生变化，如果手头又只有这一张照片，直接去找的速度和正确率实在太低。

有研究者想到，可以把这个人的照片拆成许多小块，然后一块一块的比较(方法叫BagofFeatures)。最后哪一块区域相似的块数最多就把那片区域标出来。这种做法的好处在于即使识别一个小块出了问题，还有其他的小块能作为识别的依据，发生错误的风险比之前大大降低了。

BagofFeatures

这种做法最大的缺点就是它还是把一个小块看成一坨像素然后按照像素的数值去比较，之前提到的改变光照改变形状导致物体无法被识别的问题根本上并没有得到解决。

用卷积神经网络做的物体识别器其实原理和bagoffeatures差不了太多，只是把有用的特征(feature)都装到了神经网络里了

刚提到了神经网络经过训练会自动提取最有用的特征，所以特征也不再只是单纯的把原来的物体一小块一小块的切开产生的，而是由神经网络选择最优的方式提取。

卷积神经网络提取的特征示意图，每一格代表一个神经元最会被哪种图片激活

卷积神经网络当时最出名的一个物体识别网络之一叫做VGG19，结构如下：

VGG19网络结构

每一层神经网络都会利用上一层的输出来进一步提取更加复杂的特征，直到复杂到能被用来识别物体为止，所以每一层都可以被看做很多个局部特征的提取器。VGG19在物体识别方面的精度甩了之前的算法一大截，之后的物体识别系统也基本都改用深度学习了。

因为VGG19的优秀表现，引起了很多兴趣和讨论，但是VGG19具体内部在做什么其实很难理解，因为每一个神经元内部参数只是一堆数字而已。每个神经元有几百个输入和几百个输出，一个一个去梳理清楚神经元和神经元之间的关系太难。

于是有人想出来一种办法：虽然我们不知道神经元是怎么工作的，但是如果我们知道了它的激活条件，会不会能对理解神经网络更有帮助呢？

于是他们编了一个程序，（用的方法叫backpropagation，和训练神经网络的方法一样，只是倒过来生成图片。）把每个神经元所对应的能激活它的图片找了出来，之前的那幅特征提取示意图就是这么生成的。

有人在这之上又进一步，觉得，诶既然我们能找到一个神经元的激活条件，那能不能把所有关于“狗’的神经元找出来，让他们全部被激活，然后看看对于神经网络来说”狗“长什么样子的？

长得其实是这样的：

神经网络想象中的狗

这是神经网络想象中最完美的狗的样子，非常迷幻，感觉都可以自成一派搞个艺术风格出来了。而能把任何图片稍作修改让神经网络产生那就是狗的幻觉的程序被称作deepdream。

DeepDream

NeuralStyle元年

有了这么多铺垫，一切的要素已经凑齐，前置科技树也都已经被点亮了，终于可以进入正题了。基于神经网络的图像风格迁移在年由Gatysetal.在两篇论文中提出：Gatysetal.,a和Gatysetal.,b。

Gatysetal.,a论文

转载请注明：http://www.aierlanlan.com/grrz/2813.html

上一篇文章： 8本值得一读的好书,给你力量,助你成长

下一篇文章：世界第一超模吉娘娘怒甩超级球星丈夫,史诗