定义
规则提取,这种技术是用可理解的规则集来补充黑匣子模型卓越的预测性能。这些方法有效的打开了黑匣子,提供了对黑匣子模型作用情况的深入洞察。1
从受训模型上提取符号规则,可以为黑匣子模型添加可理解性。规则提取技术试图打开黑匣子,生成可理解的符号描述,使之具有几乎与模型本身一模一样的预测力。用不可理解的黑匣子模型作为规则提取的入手点,比如支持向量机(SVM)或者神经网络,其好处是它们能够为更为复杂的关系建立模型。
分类准则Andrew等(1995)提出了神经网络规则提取技术的分类方法,它完全可以扩大到SVM上(Matens等,2007);它是建立在如下准则之上的:
(1)与深层的黑匣子模型相关的提取算法的透明度。
(2)所提取的规则或者树的表达力。
(3)神经网络的专门训练方法。
(4)所提取规则的质量。
(5)提取算法的计算复杂性。
透明度准则考虑的是该技术对黑匣子模型的认知。分解法与黑匣子模型的内在机制紧密相关。而指导型算法则是把受训模型看做黑匣子。这些算法不考察内在结构,而是直接提取与模型的输入和输出相关的规则。这些技术通常把受训模型用作训练样本的标签或者分类的评价器(人工生成),然后训练样本再被符号学习算法使用。这些技术背后的道理在于,它们假定受训模型比初始数据集能够更好地表示数据。也就是说,数据更为清洁,免于表面冲突的干扰。因为其模型被看做黑匣子,多数指导型算法都适合于从其他机器学习算法中提取规则。1
所提取规则的表达力取决于用来表达规则的语言。文献中提出了多种类型的规则,其中最主要的有命题规则、M-of-N规则和模糊规则。命题规则是如下形式的简单含义:如果X=a,Y=b,那么类=1.M-of-N规则[如果至少M-of-N条件(C1,C2,……,CN),那么……]可以被用来表示复杂的分类概念。虽然它们的可理解性是递减的,但是前提条件总是要么真要么假,而模糊规则不是这样,模糊规则的例子是:如果X是低,Y是中,那么类=1,低和中是具有对应隶属函数的模糊集。它们具有更大的灵活性,通常用语言学概念表达,让人易于给出解释。然而,给出的解释因人而异,很难做到客观。1
评估准则一般来说,人们用五条准则来评估规则提取算法:
可理解性可理解性是人可以理解所提取规则的程度。1
保真性保真性准则是指所提取规则与它所提取的黑匣子的相仿的程度,它是分类器和提取规则在类标签上保持一致的测试点的比例来测量。1
准确性能够对此前不可见的情况作出准确的预测叫做准确性。1
可伸缩性可伸缩性特指模型能够处理大输入空间和大数据集。1
通用性通用性是指这个方法要求采用特殊训练法或者对模型架有所限制的程度。1