简介
国家排放数据系统是指用于存储国家各种排放数据的数据库系统。国家排放数据系统方便对各种排放数据检索和管理,为以后各种污染排放工作打好基础。国家排放数据系统存储大量数据,可以通过数据分析或数据挖掘发现国家污染排放总量未来发展趋势。
数据库系统定义数据库系统是指在计算机系统中引入数据库后构成的系统,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员和用户构成。数据库系统是一个由硬件、软件(操作系统、数据库管理系统和编译系统等)、数据库和用户构成的完整计算机应用系统。数据库是数据库系统的核心和管理对象。因此,数据库系统的含义已经不仅仅是一个对数据进行管理的软件,也不仅仅是一个数据库,数据库系统是一个实际运行的,按照数据库方式存储、维护和向应用系统提供数据支持的系统1。
组成数据
数据是指数据库系统中集中存储的一批数据的集合。它是数据库系统的工作对象。为了把输入、输出或中间数据加以区别,我们常把数据库数据称为“存储数据”、 “工作数据”或“操作数据”。它们是某特定应用环境中进行管理和决策所必需的信息。特定的应用环境,可以指一个公司、一个银行、一所医院,或一所学校等各种各样的应用环境。在这些各种各样的应用环境中,各种不同的应用可通过访问其数据库获得必要的信息,以辅助进行决策,决策完成后,再将决策结果存储在数据库中。特别需要指出的是,数据库中的存储数据是“集成的”和“共享的”。所谓“集成”,是指把某特定应用环境中的各种应用相关的数据及其数据之间的联系(联系也是一种数据)全部地集中地并按照一定的结构形式进行存储,或者说,把数据库看成为若干单个性质不同的数据文件的联合和统一的数据整体,并且在文件之间局部或全部消除了冗余。这使数据库系统具有整体数据结构化和数据冗余小的特点。所谓“共享”,是指数据库中的一块块数据可为多个不同的用户所共享,即多个不同的用户,使用多种不同的语言,为了不同的应用目的,而同时存取数据库,甚至同时存取同一块数据。共享实际上是基于数据库是“集成的”这一事实的结果。
用户
用户是指存储、维护和检索数据库中数据的使用人员。数据库系统中主要有 3 类用户:终端用户、应用程序员和数据库管理员。
终端用户:是指从计算机联机终端存取数据库的人员,也可称为联机用户。这类用户使用数据库系统提供的终端命令语言、表格语言或菜单驱动等交互式对话方式来存取数据库中的数据。终端用户一般是不精通计算机和程序设计的各级管理人员、工程技术人员或各类科研人员。终端用户有时也称最终用户。
应用程序员:是指负责设计和编制应用程序的人员。 这类用户通过设计和编写 “使用及维护”数据库的应用程序来存取和维护数据库。这类用户通常使用 Access、PB 或 Oracle 等数据库语言来设计和编写应用程序,以对数据库进行存取操作。应用程序员也称为系统开发员。
数据库管理员(DBA):是指全面负责数据库系统的“管理、维护和正常使用的”人员。它可以是一个人或一组人。特别对于大型数据库系统,DBA 极为重要,常设置有 DBA 办公室,应用程序员是 DBA 手下的工作人员。担任数据库管理员,不仅要具有较高的技术专长,而且还要具备较深的资历,并具有了解和阐明管理要求的能力。DBA 的主要职责有:参与数据库设计的全过程,与用户、应用程序员、系统分析员紧密结合,设计数据库的结构和内容;决定数据库的存储与存取策略,使数据的存储空间利用率和存取效率均较优;定义数据的安全性和完整性;监督控制数据库的使用和运行,及时处理运行程序中出现的问题;改进和重新构造数据库系统等。
软件
软件是指负责数据库存取、维护和管理的软件系统。通常叫做数据库管理系统(Data Base Management System,DBMS)。数据库系统各类用户对数据库的各种操作请求,都是由 DBMS 来完成的,它是数据库系统的核心软件。DBMS 提供一种超出硬件层之上的对数据库的观察的功能,并支持用较高的观点来表达用户的操作,使数据库用户不受硬件层细节的影响。DBMS 是在操作系统(OS)支持下工作的。
硬件
硬件是指存储数据库和运行数据库管理系统 DBMS(包括操作系统)的硬件资源。它包括物理存储数据库的磁盘、 磁鼓、 磁带或其他外存储器及其附属设备、 控制器、 I/O 通道、内存、CPU 及其他外部设备等。
数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
对象数据挖掘的对象可以是任何类型的数据源,可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至是异构型数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的,最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
数据挖掘功能目前数据挖掘的主要功能包括概念描述、关联分析、分类、聚类和偏差检测等。概念描述主要用于描述对象内涵并且概括此对象相关特征,概念描述分为特征性描述和区别性描述, 特征性描述描述对象的相同特征,区别性描述描述对象的不同特征;关联分析主要用来发现数据库中相关的知识以及数据之间的规律,关联分为简单关联、时序关联、因果关联;分类和聚类就是根据需要训练相应的样本来对数据分类和合并;偏差分析用于对对象中异常数据的检测2。
数据挖掘过程数据挖掘主要分3个阶段:数据准备、数据挖掘、结果的评价和表达。数据准备主要是完成对大量数据的选择、净化、推测、转换、数据的缩减, 数据准备阶段的工作好坏将影响到数据挖掘的效率和准确度以及最终模式的有效性,在数据准备阶段可以消除在挖掘过程中无用的数据,从而提高数据挖掘的效率和准确度;数据挖掘的工作首先需要选择相应的挖掘实施算法,例如决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,然后对数据进行分析,从而得到知识的模型;结果评价和表达主要是确定知识的模式模型是否有效以便发现有意义的模型。