版权归原作者所有,如有侵权,请联系我们

[科普中国]-商务数据处理

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

概述

商务智能将各种数据及时转换成企业管理者感兴趣的信息,并以各种方式呈现出来,帮助企业管理者进行科学决策,加强企业的竞争优势。数据仓库、联机分析处理(OLAP)、数据挖掘是商务智能的技术基础,而分类、聚类分析属于数据挖掘的基本技术。

而电子商务的发展日新月异,极大地改变了人们的生活,而在电子商务网站运营的过程中积累了大量的数据,对于这些数据的应用是目前研究的热点。计算机和网络经过多年的发展已经较为成熟,而不同的发展阶段其研究的侧重点也不同,从目前的情况看,对于大量数据进行采集、存储、分析,并结合领域应用进行研究是发展方向,特别是大数据概念的提出,使数据处理的理论和方法都得到了较大的提高。

对于电子商务数据的处理,国内外的专家学者都进行了较为深入的研究,但大多数是针对于某一类电子商务数据,或者以某一应用为目标进行研究。不仅是在电子商务中,在普通企业中的ERP系统等,都需要对数据进行管理和分析。在电商市场竞争越来越激烈的今天,信息数据的分析可以说关系到电子商务企业是否能够生存和发展。

这里介绍一种基于电子商务数据处理的平台。1

商务数据处理平台概述电子商务系统的定义主要包括以下几个关键词,一是网络,计算机网络是电子商务的承载平台,所有的信息交互都基于网络实现,包括商品信息的发布、查询、浏览,支付过程的实现等;二是电子化,改变了传统营销模式下以实物商品为主体的方式,将实体商品信息电子化以后,更易于数据的共享和处理等,从而提高营销效率,而支付的电子化,更为推动了电子商务的跨越式发展;三是以商务为中心,将各类技术、手段、模式等进行组合应用,最终的目标是提高商业效益。电子商务按照其不同的模式,可以分为B2C模式,C2C模式,B2C模式等。

无论哪一种模式,在电子商务运营的过程中都会产生大量的数据。目前对于数据的应用已经引起了广泛的关注。数据应用最为普遍的方式主要是排序、统计等,但这些应用已经无法满足领域的应用需求。商务智能是通过对各种数据处理分析算法的应用,达到对商业过程进行分析的目的。目前已经出现了一些对电子商务数据进行处理和分析的系统和平台,这些系统虽然最终的应用目的不同,但基本上包括了以下几个组成部分:一是数据定义功能,即对待处理的数据格式进行定义;二是数据映射功能,将原始数据转换为符合定义的格式;三是ETL处理功能,即对数据进行抽取、过滤等预处理;四是环境配置功能,主要是配置各类数据处理参数;五是调度功能,主要是根据应用目标,构建数据处理方案,最终得到处理的结果。

但这些数据处理平台还存在着一些不足。目前在电子商务领域的数据处理方面存在的主要问题包括:电子商务数据分析的集成度较低;对于原始数据的预处理能力不强;数据处理效率较低,很多电子商务数据分析系统的可操作性和可理解性不佳。针对这些问题,设计了电子商务数据处理平台,该平台采用分层架构的模式,对电子商务原始数据进行处理,针对于用户不同的应用目标,设计了各类算法模块对数据进行处理,并以直观的方式向用户展现。

电子商务数据处理理论电子商务数据分析平台主要是通过对各类原始数据的集成和处理,实现不同的应用目标,最终达到提高电子商务运营效益的目的。平台构建过程中主要涉及到电子商务数据分析理论,以此为基础,利用Hadoop技术和Map/Reduce技术具体构建系统架构,并利用数据挖掘技术、联机分析处理技术等实现应用目标。

电子商务数据中包含着大量的信息,传统的数据处理方式只能够从统计的角度获取有限的知识,而商务智能则可以从海量数据中挖掘对提高商业效益具有重要价值的信息内容。电子商务数据处理分析的过程中需要关注六个重要因素:商业敏感性对电子商务数据分析的重要影响作用;电子商务数据分析的最终目标是提高投资回报率子商务数据分析指标的设置;对指标异常情况的分析和报警;对顾客行为数据的分析是重点;对客户关系的研究和管理是电子商务数据处理分析的重点。2

关键技术Hadoop技术

Hadoop技术中主要包括了分布式文件系统和分布式存储系统两个部分,其主要的应用目标是对海量数据进行存储和处理,由于其强大的可伸缩性,是云计算研究中具有代表性的一项技术。传统的数据处理平台一般只支持到TB级的数据处理,而随着待处理数据量的增大,其处理性能急剧下降,而在Hadoop平台上,可以处理PB级甚至更多的数据,依靠其分布式数据处理能力和强大的并行运算能力,该技术在数据处理方面的应用越来越广泛。

Hadoop平台对数据的处理具有以下几个特点:一是分布式,将数据资源分布于不同的存储源中,克服了传统集中式数据管理方式的缺点,提高了处理效率;二是安全性,Hadoop对于工作中的数据复制了多个备份,并在不同的节点存储,当部分节点失效时,可以对数据进行重新分配,从而保证了数据的安全性;三是快速性,Hadoop利用并行计算技术对海量数据进行处理,通过增加工作节点的方式扩展数据处理能力,能够有效地提高处理速度;四是具有较强的弹性,可以处理不同数量级别规模的数据,Hadoop平台由多个组成部分构成,而其整个体系结构是分布式的,其最底层的组成单元是TaskTracker,负责分布式处理相关的数据。

HDFS是Hadoop的另一个核心部件,它是一个分布式的文件管理系统,HDFS同样采用了主/从结构进行配置,由一个名字节点和多个数据节点构成,名字节点的主要作用是记录各数据节点的信息,它将数据划分为多个固定大小的数据块,分别存储于不同的数据节点上,为了保证数据的安全性,数据块具有一定的冗余。所有关于文件数据的操作都由名字节点进行管理,同时,数据节点向名字节点反馈自身状态。数据节点根据名字节点发送的指令执行对文件数据的操作。客户端只有通过名字节点才能够实现对数据节点中文件的各类操作。2

Map/Reduce技术

针对于云计算平台由多个计算处理单元组成的特点,谷歌公司研发了一种新的多任务并行处理编程模型,被称为Map/Reduce编程模型。

Map/Reduce编程模型不同于以往的业界主流的编程模型,其思想主要借鉴函数式编程语言,此编程模型可将程序设计人员从繁杂的编程劳动中解放出来,减轻程序设计人员的不必要的工作量.与以往业界主流的编程方式的区别是,程序仅需关注业务相关的内容和输入输出。然而目前并不是所有的场合都适合Map/Reduce编程模型,一般情况下,Map/Reduce编程模型适合处理大规模数据集,或者大文件。Map/R educe任务执行的总流程是-代码编写一作业配置一提交作业一M印任务的分配和执行一处理中间结果--*Reduce任务的分配和执行一作业处理完毕。在整个流程中,一般程序设计人员只需关注编写业务处理紧密相关的Map/Reduce程序。在Map/Reduce编程模型中整个过程有3个主要步骤:首先是文件的分割和拼接问题,这是影响到算法整体性能和复杂度的一个关键问题;其次是数据结构的问题,主要解决处理后的数据存放问题;最后是分别确定Mapper和Reduce的主要任务。MapReduee以函数方式提供了Map和Reduce来进行分布式计算。Map相对独立且并行运行,对存储系统中的文件按行处理,并产生键值(key/value)对。Reduce以Map的输出作为输入,相同key的记录汇聚到同一reduce,reduce对这组记录进行操作,并产生新的数据集。所有Reduce任务的输出组成最终结果。2

数据挖掘技术

电子商务平台的不断发展,积累了大量的用户数据资料,为数据挖掘等智能处理方法的使用奠定基础。数据挖掘在电子商务中的应用越来越广泛,主要包括以下几个方面。

(1)发现潜在用户。通过对大量的用户属性及行为数据的分析,可以将访问电子商务网站的用户划分为不同的活跃等级,代表不同程度的购买意愿。划分的依据是用户的各类特征属性。对于老用户的分类操作完成后,可以对新的用户进行分类处理,从而根据其类别有针对性地推送相关的信息。

(2)增加用户的浏览时间。用户在电子商务网站上停留的时间往往与其最终的购买的意愿成正比,通过对用户在网站界面上停留的时间以及相关操作数据的分析,可以获取到客户的兴趣点,并且根据所获取到的信息对网站的界面进行调整,实现个性化的定制,增加用户在企业电子商务网站上的停留时间。

(3)对电子商务网站的组织结构进行调整。电子商务网站给用户的使用体验也决定着用户在该页面上的停留时间,而通过对用户浏览行为分析,企业可以对电子商务网站的结构进行调整,使页面的布局更符合用户的使用习惯,从而使用户更容易地获取到更多的感兴趣的商品,提高商品的成交率。

(4)预测市场的动向。根据对当前用户消费行为和消费记录数据的研究,预测出下一阶段有客户有可能的消费意愿,并提前做好相应的准备,既可以降低公司的运营成本,又可以指导公司的相关决策制定。2

系统架构设计方案电子商务数据分析平台的总体架构设计方案主要包括五个层次,从下到上分别为数据源层、操作数据层、数据集成层、数据处理层、数据应用层。其中数据源层由多个异构数据库组成,分别存储电子商务系统运营过程中产生的不同类型数据;操作数据层是对数据源层进行提取,主要是最近一个时期的“热”数据,并可实现对数据细节的查询;数据集成层是根据分析应用的需求,将操作数据层中的数据进行集成处理,主要是为数据的应用提供基础;数据处理层是采用数据挖掘、数据联机分析处理、数据统计等各类分析方法,对集成后的数据进行处理;数据应用层是根据用户的业务需求构建数据处理应用,并调用各类数据分析方法,获取分析结果。

电子商务数据分析平台总体上采用分层架构的模式,其优点是将数据分析处理业务流程中不同的操作功能模块分配到不同的层中,从而实现功能模块之间的解耦合,提高系统的可维护性和可扩展性。

数据源层是指分布于网络中的各类原始数据,这些数据存储于不同类型的数据库中,包括关系型数据库管理系统、文件数据库管理系统等。目前在电子商务系统中本身存在着较多的管理信息系统,基本上每一个系统都有数据库支持,保存和处理所获取的数据,为了保护现有投资,数据分析处理平台通过Agent代理技术等对这些数据库中的资源进行获取。同时,针对于数据分析平台的具体应用,平台自身还需要开发相应的数据库,用于存储采集到的电子商务用户静态和动态信息。

操作数据层中保存的是可以被数据分析处理算法直接应用的数据对象。数据源层中的数据是原始数据,在存储格式、数据表结构等方面不相同,同时也存在着较多的脏数据,必须要经过预处理才能够用于分析。操作数据层具有数据预处理功能,包括数据的清洗、转换、等,为数据的下一步处理提供基础。

数据集成层具备数据仓库的生成功能,可以按照用户的需求对源数据进行预处理和组织,构建围绕主题的数据仓库。该层的主要功能是按照数据处理分析算法的需求,对操作数据层中的各类数据进行汇总和处理。操作数据层中各功能构件部署于各个节点,而数据集成层将分布于网络中不同位置的信息集成到一个节点进行处理。

数据处理层主要是根据数据分析应用的要求,选择适合的数据分析算法,实现对数据的处理。该层中以Web服务构件的模式设计了数据统计算法模块、关联分析数据挖掘模块、分类数据挖掘模块、联机分析数据处理模块等功能模块,数据应用层中的各应用模块分别对应于数据处理层中的一个或者多个模块,从而实现对源数据对象的综合处理。数据处理层中的各个算法模块所处理的数据对象位于两个层次中,一是数据集成层,该层中的数据已经完成了数据的预处理和集成,主要是用于数据统计处理算法模块,以及联机分析处理算法模块;二是位于不同数据源节点的操作数据层,这些数据已经完成了清洗等操作,主要用于数据挖掘算法的处理。

数据应用层是直接面向平台用户的层次,主要包含了各种不同电子商务数据应用模块,如网络统计模块、流量趋势分析模块、客户分析模块、目标分析模块、交易分析模块等,这些模块功能的实现都将要使用到数据处理层中的一个或者多个数据处理构件。该层的主要功能是输入处理参数以及指令,并展现数据分析的结果。2