海洋数据资料浩如烟海.它涵盖了海底地形数据、海洋遥感资料、船测数据、浮标资料、模式同化资料等诸多方面。这些海洋数据资料具有海量性、多类性、模糊性及时空过程性等特点.原始的海洋数据资料不能直接用于分析和挖掘,因此在对数据进行挖掘前要预先对数据进行清洗、转换、选择等预处理。其后的海洋数据挖掘,常用的算法有回归算法、统计分析、聚类分析、关联规则挖掘等。关联数据挖掘是能够有效地发现数据潜在的规律;聚类分析是一种不依赖于预先定义的类和带类标号的训练数据的非监督学习,实现了在未知类别标签样本集的非监督学习.回归分析是一个统计预测模型.用以描述和评估应变量与一个或多个自变量之间的关系。本章主要介绍海洋数据特征和海洋数据处理及挖掘技术的基本原理和方法。1
海洋数据特征海洋是一个动态的、连续的、边界模糊的时空信息载体。随着探测设备和信息技术的不断发展,海洋数据获取手段日益增多,海洋信息获取的速度和精度也在不断提高,获取的海洋数据量越来越大,海洋数据已经呈现出海量特征;海洋数据获取手段的多样化以及海洋观测要素的多元化,使得海洋数据类型呈现出多类性特征;同时。海洋时刻处于一个动态变化的过程中,它和大气、陆地密切相关,海洋数据表现为强时空过程性。海洋数据的海量性、多类性、模糊性、时空过程性等特征,使得海洋数据成为大数据的典范。
海量性海洋数据主要通过陆地,海面,海底,水下,航空航天等多种监控和监测设备获取,是大量不同历史、不同尺度、不同区域的数据的积累。早期由于技术手段的匮乏、投入少等原因.海洋环境调查多以年、月为周期。数据量相对较少。近年来,随着各种长期定点观测设备的使用。大量专项调查的开展.特别是“空、天、地、底”海洋立体观测技术的飞速发展.数据采集周期逐渐缩短.催生了高精度、高频度、大覆盖的海洋数据,数据量从GB、TB到PB量级,呈指数级增长,而其中遥感和浮标成为海洋数据“量”急剧增长的主要获取手段。
多类性海洋数据资料的来源非常广泛:主要包括海洋调查、观测、检测、专项调查、卫星遥感、其他各专项调查资料,以及国际交换资料等。这些资料的质量和精度等相关技术类数据信息又各不相同,包括监测方法、数据提取方法与模型、技术指标、仪器名称及参数、鉴定分析和测试方法、订正与校正方法及所涉及的相关技术标准等。而通过各种专业手段获取的各类海洋基础性数据又分属不同学科,主要包括海洋水文、海洋气象、卫星遥感、海洋化学、海洋生物、海洋地质、海洋地球物理、海底地形、人文地理、海洋经济、海洋资源、海洋管理等。另外,在国家海洋灾害和环境监测体系中.国家海洋局所属海洋环境监测机构90多个,包括国家中心、海区中心、中心站、海洋站等各级机构。沿海地方所属海洋环境监测机构共有130多个,包括省级、单列市、地市级、县级等各级机构。全国沿海各地分布着1 000多个监测站位,我国海洋系统不同的单位和部门业已形成了多种多样的数据环境,如各类数据文件、操作型数据库(或称应用数据库)以及不甚规范的主题数据库(或称专题数据库、专业数据库)等,这些现实问题导致海洋数据的类型呈现多样化特点。
海洋数据常见的分类主要包括:海洋遥感数据.海洋水温数据,海洋气象数据,海洋化学数据以及海洋生物数据等多种类型。每种海洋数据又包括多种属性元素和数据格式,以海洋化学数据为例:其包含有溶解氧,溶解氧,pH值.总碱度,活性磷,活性硅酸盐,磷酸盐,硝酸盐,亚硝酸盐,硫化物,有机污染,重金属,营养元素等多种属性元素。其属性数据又分为多种格式,如:excel格式,mdb格式.CSV格式,xml格式等。可见海洋数据的属性元素种类繁多,格式多样.并且彼此之问相互依赖,相互影响,共同决定着数据质量的优劣。
模糊性海洋数据的模糊性主要表现在概念和边界界定上。首先,由于海洋现象具有动态性,有些定义无法像陆地那么明确,由此从概念上就产生了模糊性。其次,海洋环境中各种水体边界往往是渐变的,与此相应的,要素分布也是一个渐变的过程,海洋中地理区域诸如海陆交接的海滨湿地、海岸带、领海界线、大陆架等界线无法像陆地区界线样精确和清晰.同样环境分级界限都具有一定的模糊性。若人为划分出区域边界,似乎是给出了精确的边界,实质是给出了不精确的描述。并且这一渐变过程既表现在空间维度上,也表现在时问维度上,往往无法用人为划定的确切边界处理。
时空过程性海洋相对于陆地而言,更加强调过程。海洋数据的时空过程性主要体现在海洋现象方面。海洋现象的时空过程性不但存在于一定的空间范围内.还在时间上具有一定的持续性,不同时态的特征是不同的。在海洋现象中。不同时刻的特点是不同的。有些特征会发生变化,以漩涡为例,上一时刻与下一时刻其漩涡中心、漩涡边界、漩涡面积等都可能会发生变化。海洋环境数据的时空过程性在海洋研究中占据着非常重要的地位。
动态更新频繁近30年来.在国内外先进技术的推动下,海洋卫星、浮标、台站、航空遥感等各类观测平台被广泛应用于海洋数据获取,新型的采集手段和技术的使用极大地提高了海洋数据获取的时效性,数据采集周期逐渐缩短,由过去的多年或一年采集一次,逐渐发展为以每日、每小时,每分钟甚至是秒来作为采集单位计量,使得海洋数据库中的信息不断变化,数据的更新也变得日益频繁。海洋数据的监测频率逐渐缩短,甚至可以达到全天候的监测。随着遥感技术在海洋监测领域的应用.数据采集的周期逐步减小.甚至达到全天候的每分钟一次。
海洋数据预处理通过海洋数据预处理工作。可以使残缺的数据完整,将错误的数据纠正,将多余的数据去除,将所需的数据挑选出来并且进行数据集成.将不适应的数据格式转换为所要求的格式,还可以消除多余的数据属性,从而达到数据类型相同化、数据格式一致化、数据信息精练化和数据存储集中化,提高数据质量。提高数据服务精度和决策准确度。总而言之.经过预处理之后.不仅可以得到挖掘系统所要求的数据集,而且,还可以尽量地减少应用系统所付出的代价和提高知识的有效性与可理解性。
数据清洗数据清洗,就是通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。数据清洗主要利用回溯的思想,从“脏数据”产生的源头上开始分析数据,对数据集流经的每一个过程进行考察,从中提取数据清洗的规则和策略。最后在数据集上应用这些规则和策略发现“脏数据”和清洗“脏数据”。这些清洗规则和策略的强度,决定了清洗后数据的质量。具体的数据清洗方法包括填补缺失数据、消除噪声数据等。
数据转换数据转换是用一种系统的数据文件格式读出所需数据,再按另一系统的文件格式将数据写入文件。但从根本上讲,系统之间的数据格式转换是系统数据模型之间的转换。两系统能否进行数据转换以及转换的效果如何,从根本上取决于两模型之间的关系。若模型之间差别较大,在转换过程中则必然会导致信息的丢失.在这种情况下,系统之问不适于进行数据格式转换。因此,对海洋数据的描述是实现空问数据转换的前提。将所用的数据统一存储在数据库或文件中形成一个完整的数据集,这一过程要消除冗余数据。主要是对数据进行规格化(normalization)操作,如将数据值限定在特定的范围之内。对于某些应用模式.需要数据满足一定的格式,数据转换能把原始数据转换为应用模式要求的格式,以满足需求。
数据选择把那些不能够刻画系统关键特征的属性剔除掉,从而得到精练的并能充分描述被应用对象的属性集合。对于需要处理离散型数据的挖掘系统,应该先将连续型的数据量化,使之能够被处理。
海洋数据挖掘与分析海洋数据具有海量、多类、模糊等特性,Et前,面向海洋数据的存储、分析和处理能力滞后于观测技术的发展。“大数据,小知识”的矛盾严重影响着海洋数据应用的时效性和准确性,限制了海洋数据最大应用价值的挖掘,因此,迫切需要结合数据挖掘与分析技术,实现对海洋温度、盐度、水文等海洋数据的挖掘服务,从而发现潜在信息。
回归预测预测型挖掘就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。统计学中的回归方法可以通过历史数据直接产生对未来数据的预测的连续值。
回归分析(regression analysis),是一个统计预测模型,用以描述和评估应变量与·一个或多个自变量之间的关系。回归分析预测法.是在分析自变量和因变量之间相互关系的基础上。建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量,它是一种具体的、行之有效的、实用价值很高的常用预测方法。回归分析预测法有多种类型。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法和多元回归分析预测法。
观测的海洋数据会受到多种不确定因素的影响.在某一地点和某段时间的确定性关系几乎不可能得到,但可以对大量数据进行统计分析,建立不同变量之间的回归方程.这样近似地描述变量之间的关系。
常用的回归预测方法包括:直线拟合、曲线拟合、多项式回归等,可以根据情况选取一种或者多种分析方法,对比分析结果.选择拟合效果好的分析方法。
统计分析海洋要素的具体属性随着时问变化而变化.一段时间内的海洋要素变化的集合称为总体,而通过仪器所得到的实测数据只是总体的一个样本而已。为了研究实测数据所包含的规律,需要统计样本的数字特征。
聚类分析聚类分析(Clustering Analysis)又称为群分析、点群分析、簇分析、簇群分析,目的是将相似的事物归类。将同类型的数据分为同一集群,集群与集群之间有显著的差异性,聚类分析主要是为了解资料间的依存关系。常用的聚类指标为“距离”和“相似系数(similarity coefficient)”,在研究中一般是将距离较小、相似系数较大的数据分为同一群。
常用的聚类分析方法分为三类,一为层次式聚类法(hierarchical clustering),又称系统聚类法,是一种聚类过程可以用层次式结构或是树状结构来描述的方法;二为非层次式聚类法(non-hierarchical clustering),又称逐步聚类法、K—means聚类法或快速聚类法;三为两阶段法,此方法结合层次式聚类法与非层次式聚类法两种方式,第一阶段以华德法(Ward)或其他分类法做聚类,决定集群组个数K后第二阶段再以K—means法进行类.在固定聚类数为K的条件下来做组内个体的移动。
先前提到聚类分析常用的聚类指标为“距离”和“相似系数”,层次式聚类法需先确定个体间的距离与群体间的距离,距离可以为一维度空间或是多维度空间的距离,以下提供几种计算相似系数及距离的方式。
本词条内容贡献者为:
张勇 - 副教授 - 西南大学资源环境学院