数据处理
数据处理是指使用电子计算机对大量的原始数据或资料进行录入、编辑、汇总、计算、分析、预测、存储管理等的操作过程。1
基本内容数据处理的基本内容包括:
(1)对所需数据进行收集整理,按一定的格式输入,并保存在存储介质上;
(2)在输入数据过程中,对原始数据进行检查、逻辑判断、查错、修改和简单的算术运算;
(3)对录入数据进行分类、合并、逻辑校正、插入、更新、排序检索等操作;
(4)对数据汇总、分析、制表打印、存档等;
(5)建立信息数据库,便于今后使用。1
特点数据处理在很多场合都有应用,如考务安排、成绩统计、选票统计、投标、会计业务处理、人口普查、超市管理、银行存款和取款等,其特点如下:
(1)数据量大;
(2)算法简单,主要是加、减运算、排序、分类及汇总;
(3)数据要绝对正确;
(4)事先的工作要准备充分;
(5)牵涉面广,经手的人多;
(6)有一定的时间性。1
处理方式数据处理方式是指计算机实现数据处理过程的方法。
(1)单级数据处理。
单级数据处理又可以分为批处理方式和联机实时处理两种。
批处理方式用于对数据处理的时间响应要求不是很高,数据处理点比较分散,无法实现联网或投资不允许等情况,它定时将收集过来的数据输入计算机,并进行相应的处理,这种处理方式投资少,稳定性好,但在数据汇总方面具有滞后性大等缺点。批处理方式适用于以下几种情况:
①固定周期的数据处理;
②需要对大量的来自不同方面的数据进行综合处理;
③需要将一段时间内积累的数据进行处理;
④无法进行联机实时处理时。
某些数据处理系统要时刻关注其汇总结果,必须要采用实时处理系统。实时处理系统能随时反映数据处理系统的瞬间状态。实时处理系统是当数据一旦发生,就要立刻存入计算机,并做出相应的处理。如银行的存款和取款、大型且重要的选票统计。实现实时处理系统的关键是输入系统。实时处理系统必须要采用Internet技术,要保证网络畅通,系统稳定性高,一旦系统瘫痪,将会严重影响工作。实时处理系统一般适用于以下几种情况:
①需要迅速反应的数据处理;
②负荷易产生波动的数据处理;
③数据收集费用较高的数据处理。1
(2)分级数据综合处理。
分级数据综合处理是根据一定的管理体制,自上而下进行数据汇总工作。由于某些数据处理系统牵涉的面广、数据量大,又要考虑时间,因此某些大型的数据处理要采用分级综合处理,如全国人口统计、全国职称外语考试等。分级数据处理可分为集中统一超级汇总处理和逐步分级综合处理。
集中统一超级汇总处理是指将所有各基层收集过来的原始数据都集中到最高一级数据处理中心进行数据录入、编辑、修改、汇总。这种处理方式的优点是数据的计算机处理工作点集中,数据的正确性和录入质量有可靠的保障;缺点是由于原始数据是以纸质方式来记录,给运输、验收等带来困难,若原始资料有问题,情况返回也很不方便。当前,计算机已经非常普及,计算机技术人员也不缺乏,因此数据收集、录入均可放在基层完成。经录入的数据,经过编辑、校对可传送到最高一级数据处理中心,最后进行统计汇总和分析工作。
如果大量的基础数据统一传输到某一台计算机进行最后的数据汇总,可能在数据存储、运算时间及软件平台上会很难实现。因此,必须要做到各级统计部门遵照国家统计局的统一部署,统一软件,按计划严格执行,将分层的统计结果自下而上按级上报,最后得到最终的统计结果。逐步分级综合处理是由基层进行数据的收集、录入、编辑校对,根据上级的要求进行统一汇总,然后将统计汇总结果上报上一级数据处理中心。上一级的数据处理中心将所属的基层统计汇总数据进行第二次统计汇总,依次类推,最后由最高一级数据处理中心得出最终结果。1
数据处理系统在数据处理中,计算机硬件设备是一个必要条件,它是快速处理数据的保障。为了能够满足大型的数据处理,应该采用局域网或多级局域网形式进行全国性的数据处理和统计。一般的数据处理可采用集中式数据存储方式进行,它适合于原始资料比较集中、数据量适中的数据处理,其结构管理比较方便,容易控制。大部分数据的处理都可以采用这种网络结构。对于数据量很大、原始资料分散、工作点多的情况(如人口普查),就采用多级局域网结构方式。
数据处理系统的软件平台,主要是操作系统和数据库。操作系统和数据库的选择主要根据具体的数据处理项目的大小、安全性要求等,还要考虑用户对所选软件的熟悉程度和现有硬件设备条件限制以及软件的价格等方面的因素,用户可以根据自己的需要选择合适的操作系统和数据库系统。1
数据管理数据管理是人们对数据的分类、组织、编码、存储、查询和维护等活动,是数据处理中的关键环节。根据数据管理所提供的数据独立性、数据冗余度、数据共享性、数据间相互联系、数据安全性、数据完整性和数据存取方式等水平的高低,通常将数据管理技术划分为人工管理、文件管理、数据库管理3个发展阶段。
人工管理阶段(1)不能长期保存数据。在20世纪50年代中期之前,计算机一般在关于信息的研究机构里才能拥有,当时由于存储设备(纸带、磁带)的容量空间有限,都是在做实验的时候暂存实验数据,做完实验就把数据结果打在纸带上或者磁带上带走,所以一般不需要将数据长期保存。
(2)数据并不是由专门的应用软件来管理,而是由使用数据的应用程序自己来管理。作为程序员,在编写软件时既要设计程序逻辑结构,又要设计物理结构以及数据的存取方式。
(3)数据不能共享。在人工管理阶段,可以说数据是面向应用程序的,由于每一个应用程序都是独立的,一组数据只能对应一个程序,即使要使用的数据已经在其他程序中存在,但是程序间的数据是不能共享的,因此程序与程序之间有大量的数据冗余。
(4)数据不具有独立性。应用程序中只要发生改变,数据的逻辑结构或物理结构就相应的发生变化,因而程序员要修改程序就必须都要做出相应的修改,给程序员的工作带来了很多负担。2
文件系统阶段20世纪50年代后期到60年代中期,计算机开始应用于数据管理方面。此时,计算机的存储设备也不再是磁带和卡片了,硬件方面已经有了磁盘、磁鼓等可以直接存取的存储设备了。软件方面,操作系统中已经有了专门的数据管理软件,一般称为文件系统,文件系统一般由三部分组成:与文件管理有关的软件、被管理的文件以及实施文件管理所需的数据结构。文件系统阶段存储数据就是以文件的形式来存储,由操作系统统一管理。文件系统阶段也是数据库发展的初级阶段,使用文件系统存储、管理数据具有以下4个特点:
(1)数据可以长期保存。有了大容量的磁盘作为存储设备,计算机开始被用来处理大量的数据并存储数据。
(2)有简单的数据管理功能。文件的逻辑结构和物理结构脱钩,程序和数据分离,是数据和程序有了一定的独立性,减少了程序员的工作量。
(3)数据共享能力差。由于每一个文件都是独立的,当需要用到相同的数据时,必须建立各自的文件,数据还是无法共享,也会造成大量的数据冗余。
(4)数据不具有独立性。在此阶段数据仍然不具有独立性,当数据的结构发生变化时,也必须修改应用程序,修改文件的结构定义;而应用程序的改变也将改变数据的结构。2
数据库系统阶段20世纪60年代后期以来,计算机管理的对象规模越来越大,应用范围又越来越广泛,数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈,数据库技术便应运而生,出现了统一管理数据的专门软件系统——数据库管理系统。
数据库是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年以前,随着信息技术和市场的发展,特别是20世纪90年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
用数据库系统来管理数据比文件系统具有明显的优点,从文件系统到数据库系统,标志着数据库管理技术的飞跃。此阶段的特点是:
(1)数据结构化。在描述数据时不仅要描述数据本身,还要描述数据之间的联系,数据结构是数据库的主要特征之一,也是数据库系统与文件系统的本质区别。
(2)数据共享性高、冗余少且容易扩充。数据不再是针对某一个应用,而是面向整个系统,数据可被多个用户和多个应用共享使用,而且容易增加新的应用,所以数据的共享性高且容易扩充。数据共享可以大大减少数据冗余。
(3)数据独立性高。
(4)数据由DBMS统一管理和控制。数据库为多个应用和应用程序所共享,对数据的存取往往是并发的,即多个用户可以同时存取数据库中的数据,甚至可以同时存放数据库中的同一个数据。2
空间数据的处理与管理空间数据有多种来源,不同的数据源其输入方法不同,不论采用什么方法输入数据,都会有一些问题,如输入过程中出现意外的错误,输入数据与使用格式不一致,各种来源数据的比例尺、投影不统一,图幅间不匹配等。因此,必须对空间数据进行处理和管理,才能得到纯净、统一的数据文件,使存储的空间数据符合规范、标准的要求,满足使用和分析的需要。3
图形数据的输入图形数据的输入过程实际上是图形数字化处理的过程。对于不同来源的空间数据,很难找到一种统一而简单的输入方法,只能从下述几种普遍方法中选用。
(1)手工键盘输入;
(2)手扶跟踪数字化仪输入;
(3)自动扫描数字化输入;
(4)解析测图仪法空间数据输入;
(5)全球定位系统,它可以正确获得空间位置及高程数据,并可以同计算机连接,直接输入;
(6)已有数字形式空间数据的输入,这种方式用来接收已是数字化形式的数据。3
属性数据的输入属性数据即为空间实体的特征数据。一般对一个空间实体及其属性赋予一个或多个关键字进行连接。属性数据一般采用键盘输入。当数据量较大时,属性数据与空间数据分别输入并分别存储。把属性数据首先输入一个顺序文件,经编辑、检查无误后转存到数据库的相应文件或表格中,这时属性数据输入的一种常用方法。3
GIS数据的编辑数据编辑的目的在于消除数据输入过程中引入的错误或误差。它们包括空间点位不正确、变形,空间点位和线段的丢失或重复,线段过长或过短,面积不封闭,区域中心识别码的遗漏,结点代码和区域代码不能符合拓扑的一致性,属性的分类错误、错误编码或误输入等等。
在GIS数据编辑前,应进行多工序的数据检核,检验方法有:
(1)目标检核,将图形实体显示在屏幕上,检查一些明显的错误,如丢失了线段、图斑不闭合、线段过长等。
(2)机器检核,主要是对数字化数据的拓扑一致性进行逻辑检核,把弧段连接成多边形以进行数字化限差的检查等。
(3)图形重叠比较,即按与原图相同的比例尺用数据输出模块把输入的图形及其相应的属性绘到透明材料上,然后与原图精确套叠,在透光桌上仔细地观察和比较,查找遗漏、位置错误等,一并做好相应的标记。
(4)属性数据检核,常用且简单的方法是用打印机输出属性文件,逐行检查;另一种方法是编制检核程序,用程序扫描数据文件,看有无文字代替了数字或数字超过了允许范围等粗差。3