噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。
简介噪声数据(Noisy Data)就是无意义的数据,这个词通常作为损坏数据的同义词使用。但是,现阶段的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被源程序读取和运用的数据,不管是已经接收、存贮的还是改变的,都被称为噪声。
引起噪声数据的原因引起噪声数据的原因可能是硬件故障、编程错误、语音或光学字符识别程序(OCR)识别出错等。例如:手机信号来自于基站发射的电磁波,有的地方比较强,有的地方比较弱。运营商的工程师会负责统计不同区域信号强弱来进行网络规划,工程师采集信号的方法就是将一个信号接受终端固定到车上,然后开车绕着基站转,信号终端就会自动采集不同区域的信号强度,生成一份数据。但是如果车在采集过程中遇到了突发事件、急刹车,就可能会对信号采集造成一定的影响,生成噪声数据。
噪声数据的影响噪声数据未必增加存储空间量,它可能会影响对数据分析的结果。很多算法,特别是线性算法,都是通过迭代来获取最优解的,如果数据中含有大量的噪声数据,将会大大的影响数据的收敛速度,甚至对于训练生成模型的准确也会有很大的副作用。
噪声数据处理方法回归如果变量之间存在依赖关系,即,那么我们可以设法求出依赖关系f,从而根据x来预测y,这也是回归问题的实质。实际中更常见的假设是,N是正态分布。假设y是观测值且存在噪声,如果我们能求出x和y之间的依赖关系,从而根据x来更新y的值,就可以去除其中的随机噪声,这就是回归去噪的原理1。
异常值检测数据中的噪声可能有两种,一种是随机误差,另外一种可能是错误,比如我们手上有一份顾客的身高数据,其中某一位顾客的身高纪录是20m,很明显,这是一个错误,如果这个样本进入了我们训练数据可能会对结果产生很大影响,这也是去噪中使用异常值检测的意义所在。当然,异常值检测远不止去噪这么一个应用,网络入侵检测、视频中行人异常行为检测、欺诈检测等都是异常值检测的应用。
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所