版权归原作者所有,如有侵权,请联系我们

[科普中国]-预言模型标记语言

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

概述

美国Illinois大学的国家数据挖掘中心(National Center for Data Mining,NCDM)最早提出了PMML的思想,并于1997年7月推出了PMML的第一个版本PMML 0.7。1999年,NCDM和Angoss、Magnify、NCR、SPSS共同组成了DMG(Data Mining Group)专门负责PMML的研究与开发,并于同年的KDD(Knowledge Discovery and Data Mining)大会上正式公布了PMML 1.0版,得到了数据挖掘界的广泛重视。随后IBM、Microsoft、Oracle、SAS等数据库和数据挖掘领域的著名厂商纷纷加入DMG组织,于2001年发布了PMML2.0版,2004年10月分布PMML 3.0,2009年6月发布PMML 4.0。

PMML的意义在于:“PMML帮助用户简便、快捷地定义预测模型并且在不同厂商的应用系统之间共享这些模型;PMML为应用系统提供了一种独立于厂商的方法来定义预测模型,所以在不同应用系统之间交换模型时,就不存在特性问题和不兼容问题;PMML允许用户在某厂商应用系统中所开发出的模型,使用其他厂商的应用系统对其进行可视化、分析、评价甚至是直接使用。这在以前是肯定不可能的,但是使用PMML,相容应用系统之间可以实现无缝的模型交换”。PMML 1.0只支持决策树和多项式回归模型,PMML 2.0支持的数据挖掘模型扩展到了八种,分别为:决策树模型(TreeModel)、神经网络模型(NeuralNetwork)、聚类模型(ClusterModel)、回归模型(RegressionModel)、通用回归模型(GeneralRegressionModel)、简单贝叶斯模型(NaiveBayesModel)、关联规则模型(AssociationModel)和序化挖掘模型(SequenceMiningModel),这些模型基本上包括了目前常用的所有数据挖掘技术。1

必要性模型交换对于复杂的数据挖掘任务,往往需要运用多种数据挖掘技术,应用不同的数据挖掘工具,因而这些工具之间必须要能够互相交换结果,才能保证整个任务的顺利完成。这就需要有一个开放的数据格式支持,使得在交换结果的同时不用考虑是哪个工具产生的。

模型部署我们面临着一个日益开放的Internet环境,它要求在许多异构系统之间实现友好交流。从发展的眼光看,需要将商业智能在Internet上实施部署,PMML为此提供了基础。由于XML是新一代的网络语言,基于

PMML的数据挖掘模型易于在Internet上部署,软件厂商能够更容易地将数据挖掘结果导入到其他支持这种标准的工具中。

独立性PMML是数据挖掘模型独立性的需要,数据挖掘的模型应该独立于操作系统和应用平台,虽然在不同的系统和平台中,模型的执行方法有所不同,但是模型的描述应该相同,这样才能保证不同系统和平台上的数据挖掘工具之间的交流。XML是一种跨平台的自定义描述语言,能够保证PMML的独立性。

标准化PMML是数据挖掘模型标准化的需要。就像HTML之于Internet一样,标准化的模型描述对于数据挖掘建模十分重要,PMML使得数据挖掘成为一个开放性的行业。1

优缺点优点(1)通用性。PMML是一种跨平台的语言,适用于几乎所有的操作系统和应用平台。

(2)规范性。PMML是一种规范化的模型描述语言,使其可以在不同的数据挖掘工具之间,以及数据挖掘工具和其他应用系统之间交换挖掘模型。

(3)异构性。XML本身具有异构性,可以对来自于不同数据库和应用系统中的数据进行整合。建立在XML的基础上,PMML可以和各种异构数据库进行数据交换,便于模型和数据之间的相互协作。

(4)独立性。PMML使得数据挖掘模型独立于数据挖掘工具和具体的数据,并成为数据挖掘工具外部一种存储模型的有效方式。

(5)易用性。PMML建立的模型本身就是XML文档,可以通过常用的文本编辑器或XML文档编辑器进行处理。

缺点(1)因为在建模前需要经过大量的数据转换,所以目前PMML模型并未真正实现与数据的完全分离。

(2)PMML对模型诊断和期望的性能度量没有规定。

(3)在真正的商业环境中,许多信息的访问是要受到限制的,数据挖掘模型为企业提供决策支持,带来竞争优势,其安全性尤为重要。但是,由于PMML的开放性,本身没有任何对于文档内容的安全控制,外部人员很容易掌握其中的数据,所以在实际的应用中,必须借助于其他方式来对PMML文档进行访问控制。