无监督预训练是用来训练的数据不包含输出目标,需要学习算法自动学习到一些有价值的信息。
无监督训练中使用的算法聚类:K均值、混合模型、等级聚类。
神经网络:自动编码、深信念网、 Hebbian学习、生成敌对网络、自组织映射。
无监督学习的一种统计方法是时刻的方法。在矩的方法中,模型中的未知参数(感兴趣的)与一个或多个随机变量的矩相关,因此,这些未知参数可以在给定矩的情况下被估计。这些时刻通常是根据经验估计的。基本时刻是一阶和二阶时刻。对于随机向量,一阶矩是平均向量,二阶矩是协方差矩阵(当均值为零时)。通常使用张量来表示更高阶的矩,所述张量是作为多维阵列将矩阵推广到更高阶的张量1。
特别是,矩的方法被证明是有效的学习潜变量模型的参数。潜变量模型是统计模型,除观测变量外,还存在一组未观测到的潜变量。机器学习中潜在变量模型的一个非常实用的例子是主题建模,它是一种基于文档主题(潜在变量)在文档中生成单词(观察变量)的统计模型。在主题建模中,当文档主题发生变化时,根据不同的统计参数生成文档中的文字。它表明,矩的方法(张量分解技术)在一些假设下一致地恢复大类潜变量模型的参数。
在神经网络中在自然神经网络和人工神经网络的研究中,无监督学习的经典例子归纳为唐纳德赫伯的原理,即将电线连接在一起的神经元。在Hebbian学习中,无论错误如何,连接都被加强,但完全是两个神经元之间动作电位之间巧合的函数。修改突触权重的类似版本考虑动作电位之间的时间(尖峰时间相关可塑性或STDP)。假设Hebbian学习是一系列认知功能的基础,如模式识别和体验式学习。
在神经网络模型中,自组织映射(SOM)和自适应共振理论(ART)常用于无监督学习算法。SOM是一个地形组织,其中地图中的附近位置表示具有类似属性的输入。ART模型允许簇的数量随着问题大小而变化,并且允许用户通过称为警戒参数的用户定义的常量来控制相同簇的成员之间的相似程度。ART网络也用于许多模式识别任务,如自动目标识别和地震信号处理。ART的第一个版本是由Carpenter和Grossberg(1988)开发的“ART1”。
本词条内容贡献者为:
王慧维 - 副研究员 - 西南大学