[科普中国]-密度估算- · 科普中国网

密度估算是利用概率论的知识来估计未知目标的密度，是一种非参数检验方法。

方法分类1、参数估计方法

简单来讲，即假定样本集符合某一概率分布，然后根据样本集拟合该分布中的参数，例如：似然估计，混合高斯等，由于参数估计方法中需要加入主观的先验知识，往往很难拟合出与真实分布的模型；

2、非参数估计

和参数估计不同，非参数估计并不加入任何先验知识，而是根据数据本身的特点、性质来拟合分布，这样能比参数估计方法得出更好的模型。核密度估计就是非参数估计中的一种，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。1

直方图到密度估算给定一个数据集，需要观察这些样本的分布情况，往往我们会采用直方图的方法来进行直观的展现。该方法简单，容易计算，但绘制直方图时，需要确定bins，如果bins不同，那么最后的直方图会产生很大的差别。如下面的两直方图，右边比左边的直方图多划分了bins，导致最后的结果有很大的差别，左边时双峰的，右边时单峰的。

除此之外，直方图还存在一个问题，那就是直方图展示的分布曲线并不平滑，即在一个bin中的样本具有相等的概率密度，显然，这一点往往并不适合。解决这一问题的办法时增加bins的数量，当bins增到到样本的最大值时，就能对样本的每一点都会有一个属于自己的概率，但同时会带来其他问题，样本中没出现的值的概率为0，概率密度函数不连续，这同样存在很大的问题。如果我们将这些不连续的区间连续起来，那么这很大程度上便能符合我们的要求，其中一个思想就是对于样本中的某一点的概率密度，如果能把邻域的信息利用起来，那么最后的概率密度就会很大程度上改善不连续的问题。

密度估算中带宽的选择在密度函数确定之后，比如上面选择的高斯核，那么高斯核的方差，也就是h（也叫带宽，也叫窗口，我们这里说的邻域）应该选择多大呢？不同的带宽会导致最后的拟合结果差别很大。同时上面也提到过，理论上h->0的，但h太小，邻域中参与拟合的点就会过少。那么借助机器学习的理论，我们当然可以使用交叉验证选择最好的h。另外，也有一个理论的推导给你选择h提供一些信息。

在样本集给定的情况下，我们只能对样本点的概率密度进行计算，那拟合过后的概率密度应该核计算的值更加接近才好，基于这一点，我们定义一个误差函数，然后最小化该误差函数便能为h的选择提供一个大致的方向。选择均平方积分误差函数(mean intergrated squared error)。2

本词条内容贡献者为:

李晓林 - 教授 - 西南大学