LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

发布日期:2022-06-18 17:17    点击次数:141

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

 

最近LeCun又发新作,依然是崩溃问题,依然是自监督,此次提议了一个新的正则化姿色:方差正则,可以有用矜重编码崩溃,还能擢升重构质料,一张显卡就能训!

神经汇齐集有一类学习相称受贪图人员的喜爱,那便是自监督学习(self-supervised learning SSL)。

惟一给敷裕多的数据,自监督学习大要在全都不需要人工标注的情况下,学习到文本、图像的表征,何况数据量越大、模子参数目越大,恶果越好。

自监督学习的责任旨趣也很简便:举例应用场景是图片的话,咱们可以把SSL模子的输入和输出都开荒为归并张图片,中间加入一个遮蔽层,然后开训!

一个最简便的自编码器AutoEncoder就弄好了。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

频繁来说遮蔽层的神经元数目是要小于输入图片的,这么教育后,自编码器的中间遮蔽层就可以行为图片的表征向量,因为教育历程的指标便是仅用该遮蔽向量即可收复图片。

自编码器领先提议是基于降维的思惟,然则当隐层节点比输入节点多时,自编码器就会失去自动学习样本特征的才气,此时就需要对遮蔽层节点进行一定的按捺。

稀罕自编码器应时而生,按捺的起点来自于:高维而稀罕的抒发是好的。是以只需要对遮蔽层节点进行稀罕性按捺即可。

常用的稀罕编码模式虽然是L1正则。

最近LeCun提议了一种新的稀罕编码合同可以矜重编码的崩溃,而不需要对解码器进行正则化处理。新的编码合同平直对编码进行正则化,使每个潜码因素(latent code component)在一组给定的输入的稀罕暗意上具有大于固定阈值的方差。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

论文:https://arxiv.org/abs/2112.09214

开源代码:https://github.com/kevtimova/deep-sparse

此外,贪图人员还探索了若何应用多层解码器来有用教育稀罕编码系统的姿色,可以比线性字典(linear dictionary)模拟更复杂的干系。

在对MNIST和当然图像块(natural image patch)的履行中,履行收尾标明使用新姿色学习到的解码器在线性和多层情况下都有可证明的特征。

与使用线性字典的自动编码器比较,使用方差正则化姿色教育的具有多层解码器的稀罕自动编码器可以产生更高质料的重建,也标明方差正则化姿色获取的稀罕表征在低数据量下的去噪和分类等下流任务中很有用。

论文中LeCun的作家单元亦然从FAIR改名为Meta AI Research(MAIR)。

方差正则

给定一个输入y和一个固定的解码器D, 国产伦精品一区二区三区视频贪图人员使用FISTA算法(近似梯度姿色ISTA的快速版)进行推理来找到一个稀罕编码z*,获取的z*可以使用D中的元素最佳地重建输入y。

解码器D的权重是通过最小化输入y和从z∗蓄意出的重构y之间的平均平常瑕玷(MSE)来教育获取的。

编码器E的权重则是通过预计FISTA的输出z∗获取。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

为了矜重潜码的L1正则崩溃,贪图人员加入了一个截止条款,确保每个潜码方差大于事先设定的阈值。主要达成姿色便是对能量函数加入一个正则化项,从而大要促使通盘潜码重量的方差保持在预设的阈值以上。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

更具体地说,贪图人员修改了推理历程中的指标函数来最小化能量。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

其中hinge项与L1处罚项相对消行为新的正则化项,新的方程可以荧惑每个荫庇代码因素的方差保持在的阈值以上,从而可以矜重潜码的L1正则崩溃,进而无需对解码器权重进行正则化。

重构项乞降之后的梯度和潜码z对应。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

关于线性解码器来说,尽管hinge项不是光滑的凸函数,曰批全过程免费视频播放但梯度是一条线(line)意味着hinge项在局部进展得像一个凸二次函数。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

教育历程中,贪图人员将编码器E与解码器D同期教育来预计FISTA推理蓄意的稀罕编码。

同期教育的第一个原因是为了幸免在解码器教育完成后使用批量统计来蓄意编码。事实上,应该可觉得不同的输入独赶紧蓄意编码。

第二个原因是为了减少推理技术。编码器妥协码器的教育完成后,编码器可以平直蓄意输入的稀罕暗意,这么就不需要用FISTA进行推理,即编码器可以进行amoritized推理。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

编码器的正则项可以促使FISTA找到可以被编码器学习到的编码。在履行开荒中,编码器的预计频繁被视为常数(constants),用作FIST编码的开动值。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

要是编码器提供了一个好的开动值,则可以通过减少FISTA迭代的次数来减少推理技术。

履行开荒

履行中的编码器为一个LISTA(Learned ISTA)编码器,它的假想是为了师法ISTA推理的输出,相同于一个递归神经采集。编码器由两个全连气儿层,一个偏置项,以及ReLU激活函数构成。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

线性解码器的参数简便地说是一个线性变换,将编码映射到输入数据的重构维度上,在线性变换中莫得偏置项。

在非线性解码器的情况下,使用一个大小为m的遮蔽层和大小为l的输入层(潜码的size)的全连气儿采集,使用ReLU行为遮蔽层的激活函数。将输入代码映射到隐含表征的层中有一个偏置项,而将隐含表征映射到输出的层莫得偏置项。

在推理历程中,编码z被截止为非负值。MNIST履行中潜码的维度为128,在ImageNet patch的履行中则是256,当batch size为250时,关于VDL中每个潜因素(latent component)的方差的正则化项来说是敷裕大的。

将FISTA的最大迭代次数K开荒为200次,照旧足以达成一个恶果可以的重构模子了。

在自编码器教育中,贪图人员开荒MNIST的epoch为200,image patch则为100。在SDL和SDL-NL履行中,将解码器的全连气儿层W、W1和W2中的列的L2正则固定为1,并保存输出平均能量最低的自编码器。

贪图人员还对SDL-NL和VDL-NL模子中的偏置项b1以及LISTA编码器中的偏置项b增多了权重衰减,以矜重其正则化项无尽膨大。

模子的教育只需要一块NVIDIA RTX 8000 GPU卡,何况通盘履行的运行技术都在24小时以内。

履行收尾可以看到,关于两个SDL和两个VDL的字典元素(dictionary elements)来说,在稀罕度λ较低的情况下(0.001, 0.005)解码器似乎可以学到方针、笔划,以至是是数字图形中的一部分。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

跟着λ值的提高,生成的图像也越来越像一个竣工的数字,完成了从笔划到数字的演化。

在重构质料上,SDL和VDL模子的编码器的弧线走漏了由未激活编码(值为0)因素的平均百分比臆测的稀罕进度和由平均PSNR臆测的重建质料之间的量度。

LeCun新作,一张卡就能训!方差正则,稀罕编码器不再崩溃

在5个巧合种子上的测试集所臆测的重建质料和预期相符,较高的稀罕度会导致更差的重建恶果,但用文中提议的方差正则化姿色教育出来的模子则会比SDL 模子在更高的稀罕进度下产生更好的重建恶果,从而证据了方差正则化如实是有用的。