一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

发布日期:2022-06-18 17:17    点击次数:128

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

 

当下,自监督学习在无需人工标注的情况下展示出遒劲的视觉特征索求武艺,在多个卑劣视觉任务上都获得了超越监督学习的性能,这种学习范式也因此被人们正常关怀。

在这股飞腾中,千般各样的自监督学习要领连接显现,天然它们大多都遴荐了孪生集聚的架构,可是料理问题的角度却各异高大,这些要领大致可以分为三类:以 MoCo、SimCLR 为代表的对比学习要领,以 BYOL、SimSiam 为代表的非对称集聚要领,和以 Barlow Twins、VICReg 为代表的特征解耦要领。这些要领在对待怎样学习特征示意这个问题上端倪迥异,同期由于履行完了时罗致了不同的集聚结构和覆按开发,计划者们也无法平正地对比它们的性能。

因此,人们天然会产生一些问题:这些要领之间是否存在一些考虑?它们背后的使命机理又有什么关系?更进一步的,具体是什么身分会导致不同要领之间的性能各异?

为此,来自清华大学、商汤科技等机构的计划者们提倡一个妥洽的框架来诠释注解这些要领。相较于平直去相比它们的亏空函数,他们从梯度分析的角度动身,发现这些要领都具有相等相似的梯度结构,这个梯度由三部分组成:正梯度、负梯度和一个均衡统共。其中,正负梯度的作用和对比学习中的正负样本相等相似,这标明之前提到的三类要领的使命机理其实大同小异。更进一步,由于梯度的具体神态存在各异,计划者通过详备的对比实验分析了它们带来的影响。后果标明,梯度的具体神态对性能的影响相等小,而要津身分在于 momentum encoder 的使用。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

论文邻接:https://arxiv.org/pdf/2112.05141.pdf

在这个妥洽框架的基础上,计划者们提倡了一种简略而灵验的梯度神态——UniGrad。UniGrad 不需要复杂的 memory bank 或者 predictor 集聚想象,也能给出 SOTA 的性能施展。在多个卑劣任务中,UniGrad 都获得了可以的迁徙性能,而且可以相等浅易地加入其它增强技艺来进一步晋升性能。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

图 1 三类自监督要领与 UniGrad 的对比

妥洽框架

本节将分析不同要领的梯度神态,领先给出三类要领各自的梯度神态,然后归纳其中的共性结构。从梯度的角度读者也可以更好地贯串不同类型的要领是怎样使命的。为了便捷表述,作家用u示意刻下样本特征, v示意其它样本特征,添加下标 ,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

示意不同的 augmented view,添加上标 ,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

示意孪生集聚合 online 或者 target 分支产生的特征。

对比学习要领

对比学习要领但愿刻下样本

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

拉近与正样本

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

的距离,晋升与负样本

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

的距离,一般会使用以下的 InfoNCE Loss:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

具体完了时,两类代表性要领 MoCo 和 SimCLR 有很多各异:MoCo 使用了 momentum encoder 行为 target branch 的编码器,而 SimCLR 让 target branch 与 online branch 分享参数;MoCo 使用 memory bank 来存储负样本,而 SimCLR 使用刻下 batch 中其它样本行为负样本。

通过对 SimCLR 梯度的稍稍化简(关闭 target branch 的梯度反传,不会影响最终性能),对比学习要领的梯度可以妥洽成底下的神态:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

在这个式子中,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

的作用是将正样本拉近,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

的作用是将负样本推离,因此作家将这两项分一名为正梯度和负梯度。

非对称集聚要领

非对称集聚要领只使用正样原本学习特征,而且通过非对称集聚的想象来幸免泛泛解。这类要领一般会在 online branch 后增多一个 predictor 集聚

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

,同期关闭 target branch 的梯度反传,最终使用底下的亏空函数

一个框架妥洽Siamese自监督学习,<a href=人妻少妇精品视频一区清华、商汤提倡灵验梯度神态">

这类要领中,行为代表的 BYOL 和 SimSiam 相等相似,独一的各异便是是否使用 momentum encoder。天然这类要领施展出相等优异的性能,人们对它们的使命旨趣却所知甚少。最近 DirectPred 这篇著作从集聚优化的动态历程动身对它们做了初步的诠释注解,这篇使命知悉到 predictor 集聚的特征空间会渐渐与特征的考虑性矩阵的特征空间对齐,基于此,DirectPred 提倡了 predictor 集聚的一种领会解。在此使命的基础上,作家进一步展示出非对称集聚要领与其它要领的考虑,非常地,它们的梯度可以推导为

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

其中

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是 predictor 集聚的领会解。可以看到,上式相似主要有两个部分:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是正梯度,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是负梯度。

粗看起来这个后果相等反直观:亏空函数中莫得使用负样本,可是梯度中却出现了负梯度。履行上,这些负样原本自于 predictor 在优化历程中学习到的信息。笔据 DirectPred 的论断,predictor 的特征空间会和考虑性矩阵的特征空间渐渐对齐,因此 predictor 在覆按历程中很可能会将考虑性矩阵的信息编码到集聚参数中,在反传时,这些信息就会以负样本的神态出当今梯度中。

特征解耦要领

特征解耦要领旨在减小各特征维度之间的考虑性来幸免泛泛解。由于不同使命罗致的亏空函数在神态上各异很大,作家对它们辨别进行计划。

Barlow Twins 遴荐如下亏空函数:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

其中

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是两个 augmented view 之间的考虑性矩阵。该亏空函数但愿考虑性矩阵上的对角线元素接近 1,而非对角线元素接近 0。

该亏空函数的梯度神态为:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

作家领先将第一项替换为

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

,同期,原始的 Barlow Twins 对特征遴荐了 batch normalization,作家将其替换为

一个框架妥洽Siamese自监督学习,<a href=jizzjizz國产免费a片清华、商汤提倡灵验梯度神态">

normalization,这些变换都不会影响到最终性能。

VICReg 在 Barlow Twins 的基础上做了一些编削,为了去掉加在特征上的 batch normalization,它遴荐了如下亏空函数:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

其对应的梯度神态为

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

通过对特征施加

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

normalization,作家可以去掉终末一项而不影响其性能。这么,特征解耦要领的梯度神态就能妥洽为:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

该梯度神态依然包含两项:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是正梯度,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

组成负梯度,它们辨别来自考虑性矩阵中的对角线和非对角线元素。因此,特征解耦要领实质上和其它两类要领相等相似,它们仅仅在亏空函数中将正负样本用不同的神态组合起来了。

妥洽神态

对比以上三类要领的梯度神态,作家发现它们都具有相似的结构:

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

其中,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

对应正样本的特征,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是负样本特征的加权平均,

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是均衡两者的统共,这种相似的结构诠释三类要领的使命机理相等接近。

性能对比

尽管结构相似,不同要领的具体梯度神态依然存在区别,而且 target branch 的类型、负样本集中的组成也都不一样,本节将通过对比实验来探究对最终性能的主要影响身分。

梯度神态

为了便捷对比,作家领先在各样要领里面进行化简和对比,最终再对比不同要领。齐备的实验后果如表 1 所示。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

表 1 不同类型要领性能相比

表 1(ab) 展示了对比学习要领的后果。为了保持平正相比,SimCLR 罗致了 momentum encoder,在这么的情况下施展出了和 MoCo 相易的性能。在这里,SimCLR 只用了刻下 batch 行为负样本集中,MoCo 罗致了 memory bank 行为负样本集中,这诠释在妥贴的覆按开发下,无数的负样本并不是必须的。

表 1(c-e) 展示了非对称集聚要领的后果。由于带有 momentum encoder 的 SimSiam 便是 BYOL,这里只展示了 BYOL 的后果。表 1(cd) 辨别是原始的 BYOL 和 DirectPred 神态的 BYOL,两者的性能非常,这也和 DirectPred 的论断一致。表 1(e) 将正样本梯度中的

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

替换为单元阵而莫得影响性能,因此,非对称集聚要领的梯度神态可以妥洽成表 1(e) 中的神态。

表 1(f-j) 展示了特征解耦要领的后果。对 Barlow Twins 来说,表 1(g) 将正梯度中的矩阵 A 替换为单元阵,表 1(h) 将特征的 batch normalization 替换为

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

normalization,这些替换都不会导致性能着落;对 VICReg 来说,表 1(j) 去掉梯度中终末一项,同期加上

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

normalization,这对性能险些莫得影响。终末,相比表 1(hj),它们独一的各异在于负样本统共的缱绻口头,可是性能上却各异很小,是以特征解耦要领的梯度神态可以妥洽成表 1(j) 中的神态。

终末,作家对比了三类要领的梯度,即表 1(bej) 的后果。在梯度结构中,正梯度的神态仍是妥洽,均衡统共想法过搜索保持最优,独一的各异便是负梯度神态,实验后果标明不同的负梯度神态性能相等接近。还值得可贵的是,表 1(ej) 的负样本神态相等相似,区别在于表 1(e) 使用了之前整个样本组成的负样本集中,表 1(j) 只使用了刻下 batch 集中,这也诠释了负样本集中的构建在自监督学习中不是最要津的身分。

Target Branch 类型

之前为了平正对比,作家对各样要领都使用了 momentum encoder,当今来计划不同类型的 target branch 对最终后果的影响,实验后果如表 2 所示。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

表 2 Target branch 类型影响

要是 target branch 遴荐 stop-gradient 的类型,三类要领都施展出访佛的性能,这和之前的论断是一致的;要是 target branch 遴荐 momentum-encoder 的类型,三类要领都能在之前的基础上晋升大要 2 个点,这诠释 momentum encoder 对不同的要领都能带来晋升。

更进一步的,作家知悉到一些要领里唯独正梯度期骗到了 momentum encoder 的特征,于是他们尝试对三类要领都只在正梯度中罗致 momentum encoder 的特征。实验后果标明这和一齐梯度罗致 momentum encoder 具有访佛的性能施展。这诠释关于自监督学习来说,一个稳固更新的一致的更新方向长短常进攻的。

最终要领

基于上述的妥洽框架,作家提倡了一种简略灵验的自监督要领(UniGrad):

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

其中

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

是考虑性矩阵的滑动平均。UniGrad 实质上便是表 1(e) 的梯度神态,这种梯度不需要稀奇的 memory bank,也不需要想象稀奇的 projector,实验标明无论是 linear evaluation 如故 transfer learning,它都大致获得 SOTA 的实验性能。

图 2 从多个估量办法的角度展示了不同要领的优化历程。可以看到,不同要领的优化弧线莫得澄澈的各异,这也诠释了该要领和之前要领有着访佛的使命机制。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

表 3 和表 4 展示了 UniGrad 的具体后果。UniGrad 自己大致获得和之前要领非常的性能,而且大致浅易地将之前的数据增强口头交融进来,进一步晋升性能。在更长轮数的覆按中,UniGrad 也能获得可以的性能。

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

表 3 UniGrad 与数据增强要领连络的性能

一个框架妥洽Siamese自监督学习,清华、商汤提倡灵验梯度神态

表 4 长轮数下与之前要领的对比