选自

机器之心合集

参与:、姜思源、吴攀

无监督学习是深度学习的圣杯。 其目的是能够用非常少量的不需要标记的数据来训练通用系统。 本文将从无监督学习的基本概念入手,进一步简单描述无监督学习的各种基本算法及其优缺点。 本文作者是 e-Lab 的研究员,该实验室专注于机器人和视觉研究。

当今的深度学习模型需要在大规模监督数据集上进行训练。 这意味着每一条数据,都会有一个对应的标签。 一个流行的数据集拥有 100 万张人工注释图像,1,000 个类别中每个类别有 1,000 张图像。 创建这样的数据集需要大量的工作,许多人可能需要几个月的时间才能完成。 假设现在要创建一个一百万类的数据集,需要对总共一亿帧的视频数据集中的每一帧进行标记,这基本上是不可能实现的。

现在,回想一下你小时候是如何被教育的。 是的,我们确实有一些疏忽,但是一旦你的父母告诉你这是一只“猫”,他们就不会在余生每次观察一只猫时都告诉你这是一只“猫”! 今天的监督学习是这样的:我一遍又一遍地告诉你“猫”是什么样子,也许有一百万次。 然后你的深度学习模型就会了解猫。

理想情况下,我们希望有一个更像我们大脑运作的模型。 只需要几个标签就可以理解现实世界中的多种事物。 在现实世界中,我所说的类是指对象类、动作类、环境类、对象部分类等等。

正如您将在本次评论中看到的,最成功的模型是那些可以预测视频中即将出现的场景的模型。 许多这些技术面临并试图解决的一个问题是,为了获得良好的全局性能,必须在视频而不是静态图片上进行训练。 这是将学习到的表示应用于实际任务的唯一方法。

基本概念

无监督学习研究的主要目标是预训练可用于其他任务的模型(即判别器或编码器)。 编码器的特征应该尽可能通用,以便它可以用于分类任务(例如训练)并提供尽可能好的结果,就像监督模型一样。

最先进的监督模型总是比无监督的预训练模型表现得更好。 这是因为监督将使模型能够更好地对数据集上的特征进行编码。 但当模型应用于其他数据集时,监督就会减弱。 在这方面,无监督训练有望提供更通用的功能来执行任何任务。

如果是针对现实生活中的应用,比如自动驾驶、动作识别、物体检测、实时提取识别等,那么算法就需要在视频上进行训练。

自动编码器

论文“有一个基础集:A by V1?” (论文链接:)1996年加州大学戴维斯分校的Bruno和康奈尔大学的David Field发表的论文表明,编码理论可以应用于视觉皮层的感受域。 他们证明,我们大脑中的基本视觉涡旋(V1)利用稀疏原理创建一组最小的基本特征,可用于重建输入图像。

下面的链接是 Bing 团队的 Piotr 在 2023 年伦敦会议上对自动编码器的精彩综述。

Yann LeCun 的团队也在这一领域开展工作。 在链接页面的演示中,您可以看到如何学习像 V1 这样的过滤器。 (链接:~yann//deep/)

通过重复贪婪的逐层训练过程,还使用了堆叠式自动编码器(-auto)。

自动编码器方法也称为直接映射方法。

自动编码器/稀疏编码/堆叠自动编码器的优缺点

优势:

缺点

聚类学习

它是一种使用 k 均值聚类学习多层滤波器的技术。

我们小组将这种技术命名为:集群学习(参见论文:for)、集群连接(参见论文:An of the of Deep)和卷积聚类(参见论文:for)。 就在最近,该技术在流行的无监督学习数据集STL-​​10上取得了非常好的结果。

我们在这一领域的研究独立于 Adam 和 Ng 在《基于 k-means 的学习特征表示》(使用 K-means)中发表的工作。

众所周知,由于求解配分函数的数值问题,限制玻尔兹曼机(RBM)、深度玻尔兹曼机(DBM)、深度置信网络(DBN/参见E.等人的研究:A fast for deep net) )和其他模型很难训练。 因此,它们在解决问题时并未广泛使用。

集群学习的优缺点:

优势:

缺点:

生成对抗网络模型

生成对抗网络试图通过判别器和生成器之间的对抗来获得优秀的生成模型。 该网络希望生成足以欺骗鉴别器的真实图像。 在生成模型领域,近年来非常出色的生成对抗网络是 Ian 等人在论文《Nets》中提出的。 这里还有研究员 Ian 在 2023 年底对生成对抗网络(GANS)所做的总结,视频链接:。

Alec、Luke Metz 等人实例化的名为 DCGAN 的生成对抗模型取得了非常好的效果。 他们的研究发表在论文中:with Deep。

他等人。 对该模型给出了更好的解释(链接:)。

DCGAN 判别器旨在确定输入图像是真实的(来自数据集中的真实图片)还是假的(来自生成器)。 生成器将随机噪声向量(例如 1024 个值)作为输入并生成图像。

在DCGAN中,生成器网络如下:

编码器的作用和功能_编码器_编码器分几种类型

虽然这个判别器是一个标准的神经网络。 具体细节请参考下面提到的代码。

关键是并行训练两个网络,而不会完全过度拟合,从而复制数据集。 学习到的特征需要对未知样本进行泛化,因此学习数据集将没有用处。

还提供了在 ( ) 上训练 DCGAN 的代码。 这需要大量的实验,相关内容Yann LeCun也分享于:

生成器和判别器都训练好后,就可以同时使用它们了。 主要目标是训练一个可用于其他任务的鉴别器网络,例如对其他数据集进行分类。 生成器可用于从随机向量生成图像。 这些图像具有非常有趣的属性。 首先,它们提供输入空间的平滑变换。 下面显示的示例显示了通过移动 9 个随机输入向量生成的图像:

编码器分几种类型_编码器的作用和功能_编码器

输入向量空间还提供了数学属性,证明学习到的特征是按照相似度组织的,如下图所示:

编码器分几种类型_编码器的作用和功能_编码器

生成器学习到的平滑空间激发了鉴别器具有相似的属性,使得鉴别器在编码图像时成为一个很好的通用特征提取器。 这有助于解决 CNN 在训练不连续图像时无法对抗噪声的问题(详细信息请参阅等人的文章“of”)。

GAN 的最新进展在仅 1000 个标记样本的 CIFAR-10 数据集上实现了 21% 的错误率。 参见 Tim 等人的论文“for GAN”,论文链接:。

在最近的论文“:by Nets”(链接:)中,它可以产生特征非常清晰的图像,并且这些图像具有更有趣的含义。 不过,他们并没有公布学习到的特征在某个任务或者某个数据集中的性能比较。

如下所示的博客和网站中也有生成对抗模型的摘要,请参阅技术博客和网页。

接下来是另一个非常有趣的例子,作者使用生成对抗训练来学习从文本描述生成图像。 请参阅论文“文本到图像”,链接:。

编码器分几种类型_编码器的作用和功能_编码器

我对这项工作最欣赏的是它使用了一个网络,该网络使用文本描述作为生成器的输入,而不是随机向量,从而可以精确控制生成器的输出。 网络模型结构如下图所示:

编码器的作用和功能_编码器_编码器分几种类型

生成对抗模型的缺点和优点

优势:

缺点:

可以从数据中学习的模型

这些模型通过设计不需要标签的无监督学习任务和旨在解决这些任务的学习算法,直接从未标记的数据中学习。

通过解决拼图来进行视觉表征的无监督学习确实是一个聪明的技巧。 作者将图像分割成谜题,并训练深度网络来解决谜题。 所得网络的性能足以匹配最佳的预训练网络。 详细参见论文“of by”,链接:

通过视觉表示中的图像块和布局进行无监督学习也是一个聪明的技巧。 他们让同一图像上的两个补丁间隔很近。 这些补丁在统计上是相同的对象。 第三个补丁选择随机图像并将它们放置在随机位置,统计上与前两个补丁不是同一类型的对象。 然后训练深度网络来区分属于同一类的两个补丁和不同类的另一个补丁。 由此产生的网络具有与性能最高的微调网络之一相同的性能。 详细内容参见论文《来自时空的co-》,链接:。

立体图像重建的无监督学习模型将立体图像作为输入,例如帧的左半部分,并重建图像的右半部分。 虽然这项工作不是针对无监督学习,但它可以用于无监督学习。 此方法还可用于从静态图片生成 3D 电影。 参见论文“:Fully 2D-to-3D Video with Deep”,链接:,源代码:。

使用代理类进行视觉表示的无监督学习使用图像来创建非常大的代理类。 然后对这些图像块进行增强,然后用于训练基于增强代理类的监督网络。 这在无监督特征学习中给出了最佳结果。 详细内容参见论文“with”,链接:。

使用视频进行视觉表示的无监督学习采用基于 LSTM 的编码器-解码器对。 编码 LSTM 对视频帧序列进行操作以生成内部表示。 然后,这些表示由另一个 LSTM 解码以生成目标序列。 为了实现无监督,一种方法是预测与输入相同的序列。 另一种方法是预测未来的帧。 详细内容参见论文《使用》,链接:。

另一篇使用视频的论文来自麻省理工学院等人。 (),结果非常引人注目。 这项工作背后的想法是从视频输入中预测未来帧的表示。 这是一种优雅的方法。 使用的模型如下:

编码器分几种类型_编码器的作用和功能_编码器

该技术的一个问题是使用在静止图像帧上训练的神经网络来解释视频输入。 该网络不学习视频的时间动态以及空间中移动的物体的平滑变换。 所以我们认为这个网络不适合预测未来视频中的画面。

为了克服这个问题,我们的团队创建了一个名为 eVDS () 的大型视频数据集,可用于直接从视频数据训练新的(递归和反馈)网络模型。

是一个旨在预测视频中未来帧的网络。 一些例子可以在这个博客中看到,博客链接:。

是一种非常智能的神经网络,我们认为它将在未来的神经网络中发挥重要作用。 在监督 CNN 中学习超出单帧图像的神经表示。

结合了受生物学启发的双向[人脑模型](有关详细信息,请参阅论文“Pixel-”)。 它使用[神经模型中的预测编码和反馈连接](有关详细信息,请参阅论文“and with Deep for”)。 这是模型和具有两个堆叠层的示例:

编码器的作用和功能_编码器分几种类型_编码器

纳入受生物学启发的双向人脑模型

该模型具有以下优点:

一个问题是,对于第一层中的一些简单的基于运动的滤波器来说,预测未来的输入帧相对容易。 在我们所做的实验中,我们学会了在重建输入帧方面取得良好的结果,但较高层并没有学到更好的表示。 事实上,在实验中,更高的级别甚至无法解决简单的分类任务。

事实上,预测未来的帧是没有必要的。 我们想做的就是预测下一帧的表示,就像卡尔所做的那样。 详细内容参见论文“来自视频”,链接:。

通过观察物体的运动来学习特征

最近的这篇论文通过观察视频中对象的运动来训练无监督模型(“by Move”,~//)。 以光流的形式提取运动并用作运动物体的分割模板。 尽管光流信号没有提供任何接近良好分割模板的东西,但对大规模数据集的平均效果使得最终网络表现良好。 示例如下:

编码器的作用和功能_编码器分几种类型_编码器

这项工作非常令人兴奋,因为它遵循关于人类视觉皮层如何学习分割移动物体的神经学理论。 参见论文《人类》,链接:。

未来

未来需要你来创造。

无监督训练仍然是一个尚未开发的话题,您可以通过以下方式做出巨大贡献:

原文链接:

读者福利:即日起至GMIS 2023大会当天,读者在头条文章下留言,机器心将在第二天选出最专业或最有洞察力的评论,赠送GMIS 2023两日门票一张!

好了,今天的主题就讲到这里吧,不管如何,能帮到你我就很开心了,如果您觉得这篇文章写得不错,欢迎点赞和分享给身边的朋友。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注