我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:彩63彩票 > 多面体裁剪 >

深度学习的几何理解 - 概率变换的几何观点

归档日期:05-13       文本归类:多面体裁剪      文章编辑:爱尚语录

  (最近,先生领导的团队,大连理工大学罗钟铉教授、雷娜教授领导的团队应用几何方法研究深度学习。老顾受邀在一些大学和科研机构做了题为“深度学习的几何观点”的报告,汇报了这方面的进展情况。这里是报告的简要记录,具体内容见【1】。)

  昨天(2018年6月15日),严东辉教授邀请老顾在泛华统计协会( International Chinese Statistical Association)举办的应用统计会议(ICSA2018 Applied Statistics Symposium)上做了“深度学习的几何观点”的报告。会议上Eric Xing教授给出报告,用统计概率的观点统一了变分自动编码器(VAE,Variational Autoencoder)和生成对抗网络(GAN,Generative Aderseral Network)。老顾用几何观点将VAE和GAN加以分析,再度阐述GAN模型中的对抗是虚拟的,没有必要的,生成器网络和判别器网络是冗余的。(以前的博文曾经系统阐述过,请见 “虚构的对抗,GAN with the wind”)下面我们从几何角度详细解释。

  我们前面阐述过深度学习成功的核心原因可以部分归结为流形分布律和聚类分布律(深度学习的几何观点(1) - 流形分布定律),深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达;和变换概率分布。

  )分析了深度学习如何计算流形的参数化映射(即编码映射),;和参数化表示(解码映射),。编码映射将流形上的概率测度映射到参数域(隐空间)上,“推前”概率测度记为。在工程应用中,我们希望能够完全控制隐空间上的(推前)概率分布,使之等于高斯分布或者均匀分布,为此,我们构造隐空间到自身的同胚映射,,满足等于高斯分布或者均匀分布。

  如图2所示,我们将米勒佛曲面,;在平面圆盘上均匀采样,再映射回米勒佛曲面,。上面一行显示圆盘上的均匀分布映回曲面后不再是曲面上的均匀分布。下面一行显示,我们建立平面圆盘到自身的同胚映射,,这样平面圆盘上的均匀分布被映射到曲面上的均匀分布。核心问题在于如何构造隐空间的自同胚,实现两个概率测度间的变换。这方面已经有相对成熟的最优传输理论。

  给定欧氏空间中的两个区域和定义其上的概率测度和,总测度相等。假设是一个区域间的映射,如果对于任意的可测集合那么我们说此映射保持测度,记成,,它们之间的距离为.蒙日(Monge)于1781年提出了著名的最优传输问题:寻找保持测度的传输映射,使得传输代价最小,。这个映射被称为是最优传输映射,最优传输映射的传输代价被称为是两个概率测度之间的Wasserstein距离,记为。Kantorovich将传输映射(transportation map)减弱为传输规划(transportation scheme),用联合概率分布来表示传输规划,其边际概率分布等于和,即对于任意可测集合,,,,记为,。Kantarovich将最优传输问题转化成 Kantarovich问题,Wasserstein距离等于如果最优传输映射存在,那么最优联合概率分布的支集为对角线。Kantarovich发明了线性规划来求解这一问题,由此得到1975年的诺贝尔经济奖。

  这里是的c-变换,我们将称为Kantarovich势能函数。,那么可以证明,并且是1-Lipsitz函数。二十世纪八十年代,Brenier进一步发展了Kantarovich的理论。如果采用距离函数,,那么存在一个凸函数,其梯度映射给出了最优传输映射,。我们称这个凸函数为Brenier势能函数。那么由最优传输映射保测度,我们得到Brenier势能函数满足蒙日-安培方程,

  更进一步,在距离下,最优传输映射的Kantarovich势能函数和Brenier势能函数满足简单的等式:

  如图3所示,给定一个凸多面体,每个面的法向量已知,面积已知,所有面的面积和法向量的乘积之和等于0,闵可夫斯基(Minkowski)定理证明这样的凸多面体存在,并且彼此相差一个平移。

  闵可夫斯基的学生闵可夫斯基的结果推广到开的凸多面体,如图5所示。给定凸多面体每个面的法向量,和每个面向平面圆盘的投影面积,总投影面积等于平面圆盘面积,那么这样的凸多面体存在,并且彼此相差一个垂直平移。亚历山大在1950年给出的证明是基于代数拓扑原理,从中无法构造算法。2013年,丘成桐先生,罗锋,孙剑和老顾给出一个基于变分法的证明【2】。证明的大致思路如下:每个面的线性方程记为,这里梯度已知,截距未知。每个平面将三维欧氏空间分成上下两个半空间,所有上半空间的交集叫做这些平面的上包络,上包络的边界即为凸多面体。我们通过改变截距来调节每个面的投影面积。 亚历山大定理中的截距优化下面的凹能量,这里是每个面的目标投影面积,是每个面的当前面积。可以证明,这个能量在子空间上是严格凹的,其梯度和海森矩阵都有明确的几何意义,因此可以用牛顿法快速求解。

  最优传输的Brenier理论和凸几何的Alexandroff理论本质上是等价的。下面我们来具体分析。

  图6显示了这种方法的一个计算实例,首先我们将滴水兽曲面用黎曼映照映射到平面单位圆盘,黎曼映射的像如下行左帧所示,那么曲面的面元诱导了平面圆盘上的一个测度。平面圆盘上的欧氏面元定义了均匀测度。我们用上面讲述的变分法来构造平面圆盘到自身的最优传输映射,最优传输映射的像如下行右帧所示。那么最优传输映射的结果给出了从曲面到平面圆盘的保面元映射。

  2014年,Goodfellow 提出了GAN的概念,他的解释如下:GAN的核心思想是构造两个深度神经网络:判别器D和生成器G,用户为GAN提供一些真实货币作为训练样本,生成器G生成假币来欺骗判别器D,判别器D判断一张货币是否来自真实样本还是G生成的伪币;判别器和生成器交替训练,能力在博弈中同步提高,最后达到平衡点的时候判别器无法区分样本的真伪,生成器的伪造功能炉火纯青,生成的货币几可乱真。这种计算机左右手互搏的对抗图景,使得GAN成为最为吸引人的深度学习模型。

  图7显示了Wasserstein GAN的理论框架。假设在隐空间有一个固定的概率分布,例如高斯分布或者均匀分布。我们用一个深度神经网络来逼近解码映射,将映成了图像空间中的概率分布我们称为生成分布。判别器的核心任务是计算训练数据分布和生成分布之间的距离;生成器的目的在于调节使得生成分布尽量接近数据分布。换言之,判别器计算Wasserstein距离;生成器计算最优传输映射。判别器计算测度间的Wasserstein距离,等价于求解Kantarovich势能函数。如果距离函数为,Kantorovich势能为1-Lipsitz,并且。这里Kantorovich势能由一个深度神经网络来计算,记为。Wasserstein距离为。生成器极小化Wasserstein距离,。所以整个WGAN进行极小-极大优化:生成器极大化,判别器极小化,各自由一个深度网络交替完成。在优化过程中,解码映射和Kantorovich势能函数彼此独立。

  如果,我们用距离函数,,那么Wasserstein距离由Kantarovich势能函数给出,最优传输映射由Brenier势能给出。在,

  这意味着:在最优情况下,判别器D由生成器G的结果直接给出;生成器G由判别器D的结果直接给出;判别器D和生成器G之间的对抗是虚拟的;判别器网络和生成器网络是冗余的。这和人们对于GAN模型生成器、判别器相克相生的想象大相径庭。

  传统的变分自动编码器VAE核心想法是将隐空间的概率分布变换成高斯分布,手法相当曲折。

  因为概率变换可以用最优传输理论来清晰阐释,并且用牛顿法优化凸能量可以保证全局最优性,和高阶收敛速度,我们可以将深度学习中的概率变换部分分离出来,用透明的数学模型来取代,其他部分依然用传统的黑箱来运算,如此得到了半透明的网络模型【4】。

  我们将半透明网络做为生成模型,在手写体数据集合上进行测试。如图9所示,半透明网络的计算结果优于传统的VAE和WGAN结果。

  我们将半透明网络做为生成模型,在人脸图片数据集合上进行测试。如图10所示,半透明网络的计算结果优于传统的VAE结果。

  最优传输理论可以用于解释深度学习中的概率分布变换。最优传输的Brenier理论和凸几何中的Alexandroff理论等价,我们的理论结果给出了基于变分法的构造。在这种情形下,生成器和判别器彼此等价,它们之间的对抗不再需要,网络体系结构可以大幅简化。在深度学习中,我们可以将流形降维和概率变换分开,用透明的最优传输模型来部分取代黑箱,得到半透明网络模型。

本文链接:http://ashtonstewart.net/duomianticaijian/193.html