版权归原作者所有,如有侵权,请联系我们

[科普中国]-批量数据处理

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

介绍

在数据仓库和大中型数据库的实际应用中,有许多行业需要大批量处理数据。例如一般情况下,机构是根据行政区域来设置的,而业务则是根据服务种类来划分,但发展趋势和方向是要不断适应当今信息时代数据大集中的要求,所以要求数据必须进行全集中管理。全集中管理的数据有:国家级、省部级、厅级的汇总数据;教育、公安、金融、税务等行业的数据;大型企业所管理的庞大的产品数据和交易数据;社会管理、城建等方面产生的大规模共性数据等。随着数据从不同平台处于离散、不统一和不规范的分布状况,向着数据的大集中或大集成的方向转变,从海量数据中提取大数据集进行快速地批量处理有广泛的实际需求。在数据大集中的发展趋势下,如何从海量数据中抽取具有共性特征的数据集,并对这些具有共性特征的数据集进行快速交互地批量处理或批量加工,将是管理信息系统中日益突出的问题,也是数据集中工程中亟待解决的问题。如果尽早地研究类似的业务需求和技术方法,就能解决大型数据库大规模数据更新过程中数据处理效率不高的问题,保证数据处理的及时性和可靠性,从而提高使用计算机信息系统的经济效益和社会效益。

批量数据处理的基本流程是: 首先从数据库中读取批量数据,经过计算处理,最后以图形方式或数据文件方式输出。在高性能服务器或工作站平台下,大批量数据可以集中高效处理。

方法海量数据快速批量处理的总体过程是:对海量数据任意条件抽取的大数据集进行批量更新或修改;对有大批量添加的需求,先进行大批量记录的添加,再进行批量修改,使得数据的处理和加工是以计算机大批量管理为主。这个过程是按照既定的流程智能化和自动化地完成。批量处理过程中出现的错误描述将记录在日志文件中,既不影响批量处理,又可进行事后审计。

批量数据抽取数据集的筛选和过滤过程:

(1) 建立数据集筛选的查询条件

设计数据查询生成器通用构件,在进行数据批量处理的工作之前,调用数据查询生成器窗口,选择组合查询条件,建立查询表达式。

(2) 得出数据记录集

根据查询表达式,有直接从数据库中抽取方式和从记录结果集中继续过滤两个步骤,循环地进行数据的抽取和过滤,直至得出所希望的数据记录集。

(3) 得到最终需要批量处理的数据结果集

从上面产生的数据记录集中,提供手工选择界面,剔除个别不需要处理的记录,进行数据的最后抽取,最终得到需要批量处理的数据结果集。

用事件进行批量数据处理用事件进行数据批量处理分为批量增加和批量修改两种。

批量删除是批量修改的特例。批量增加又分为主表的批量增加和关系表子集批量增加。主表的批量增加使得主表记录批量增加后,只需修改较少数据的操作即可达到大批量数据快速录入的目的。关系表子集的增加使得子集表记录批量增加后,不但能达到大批量数据快速录入的目的,而且还能保证事件触发所产生的其他子集表中数据的同步性和一致性。如在档案系统中,关系表子集指学历子集、职务子集、工资子集等几十种子集。

主表的批量增加过程为: ①使关键字序号自动增加,输入批量循环执行的次数; ②增加第一条主表记录并用数组记录不为空的字段记录,用于循环执行时赋值给批量增加的字段记录; ③执行主表的批量增加事件。

关系表子集的批量增加过程为: ①在现有系统主菜单中增加批量处理项; ②抽取需要批量增加的主表数据集; ③在主表第一条记录对应的子集中增加一条记录,并用数组记录不为空的字段记录,用于赋值给批量增加的字段记录; ④执行子集的批量增加事件。

主表的批量修改与关系表子集的批量修改过程为: ①抽取需要批量修改的数据集; ②用数组记录第一条记录中被修改了的字段,用于赋值给批量修改的字段; ③执行对应的批量修改事件。

编写专用的事件和函数来执行数据批处理任务。在批量处理中还需要对日期型格式、数字型格式和字符型格式分别进行判断和处理。

用结构查询语句进行批量数据处理另一种方法是使用SQL 语句实现数据的批量处理。利用过滤操作得到的条件,作为SQL 语句的WHERE 部分数据抽取的条件,利用提取首条表单的数据操作改变的一组数据作为INSERT ,UPDATE 的操作改变的对象。如果不进行相关大量的额外开发工作,这一方法就难以保证子集表中数据之间的同步性和一致性。1