发展前提
作为数据挖掘对象,数据来源的原始数据常常包含着噪音、不完整、甚至是不一致的数据。为了得到高质量的数据挖据效果,在进行数据挖掘之前,必须对原始数据做一定的处理,这种从原始数据到挖掘数据之间,对数据进行的操作叫做数据预处理。它是整个数据挖掘过程中很重要的一个步骤。据统计,数据预处理要花费的时间占整个数据挖掘的60%。可是,目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法和挖掘语言等,数据挖掘工具也主要支持数据挖掘模型建立、评价,对数据预处理的支持力度明显不足。这和数据预处理的重要地位很不相称。这种现象很大程度阻碍了数据挖掘效率的进一步提高。
概述数据预处理包含数据清洗、集成、转换、和消减。
数据清洗数据清洗是指消除数据中所存在的噪音以及纠正其不一致的问题。所谓噪音数据是指数据中存在着错误、或异常(偏离期望值)的数据。而不一致的数据则是指数据内涵出现不一致的情况(如:部门编码在不同表中出现不同值)。具体的处理内容通常包括:填补遗漏的数据值、平滑有噪音的数据、识别除去异常值、纠正不一致的问题。
数据集成数据集成就是将来自多个数据源(如:数据库和文件等)的数据按照统一的格式结合在一起。并形成比较完整的数据集合,为数据挖掘的顺利完成提供数据基础。通过数据集成,能够使来自多个数据源的现实世界的实体相互匹配,能够根据需要适当处理数据冗余问题(属性冗余和记录行冗余),检测和消除数据值冲突等。
数据转换数据转换主要是对数据进行规格化操作,将数据转换或归并以构成一个适合数据挖掘的描述形式。
数据消减数据消减是在不影响(或基本不影响)最终的挖掘结果的情况下,大幅度缩小所挖掘数据的规模,从而大幅度减少后面数据预处理和数据分析所消耗的时间。常见的数据消减法有数据集合、消减维数等。1