版权归原作者所有,如有侵权,请联系我们

[科普中国]-证据加权分析法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

证据加权分析法

证据加权分析法(weight evidence analysis method)是加拿大数学地质学家Agterberg提出的一种地质学统计方法,它采用贝叶斯统计分析模式,通过对一些与矿产形成相关的地质学信息的叠加复合分析,来进行矿产靶区的预测(Agterberg,1990;Agerberg and Cheng,2002;李荣等,2011)。该模型是数理统计、图像分析和人工智能的有机综合,为基于GIS软件平台进行成矿预测提供了有效的方法,目前在矿产资源评价方面应用十分广泛(杨茂森等,2005;马伟等,2015)1。

近年来,ROC分析(Receiver Operating Characteristic Analysis)技术越来越多地应用到机器学习领域中,因其具有对类别分布和代价不敏感,直观性和理解性强等特点,使其成为度量分类性能的有效工具(万柏坤等,2006;邹洪侠等,2009)。成矿潜力预测问题与二态数据的机器学习问题十分相似,通过计算ROC曲线下面积AUC(Area Under the Curve)值,来进行成矿预测模型的效果评价,并将证据加权分析法和ROC曲线分析方法相结合,根据ROC曲线的TP率和FP率计算圈定矿产靶区概率阈值从而进行矿产靶区的预测,克服了传统人工确定概率阈值的主观性。

证据加权分析法基本原理证据加权分析法将每一种致矿因素(证据图层)都用二态变量来表示,用1表示证据存在,0表示不存在,然后检验不同证据两两之间的条件独立性,并且每一种证据都计算一对权系数,最后将证据图层进行统计综合,计算成矿后验概率(陈永良等,2000)。在将证据图进行统计综合之前,需要检验m个证据是否满足条件独立性,将m个证据两两配对分组,检验每一组中两个证据是否满足条件独立性。

ROC曲线分析原理近年来,ROC分析技术越来越多的应用到机器学习领域中,因其具有对类别分布和代价不敏感,直观性和理解性强等特点,使其成为度量分类性能的有效工具(涂福泉,2007;张晓龙等,2007)。把分类器将第一类目标正确分为第一类的个数与所有第一类样品个数的比值(TP/P)定义为TP率,把分类器将第二类目标误分为第一类目标的个数与所有第二类样品个数的比值((TP/N))定义为FP率。以FP率为X轴,以TP率为Y轴形成的二维空间或坐标系,离散或二值输出的分类器训练后都会对应坐标系中的一个点,具体的说坐标系中的单点是给定不同分类器或同一分类器且设定不同阈值后得出的(骆名剑,2005;张晓龙等,2007)。将ROC空间中所有的点,按照从左到右的顺序连成一条曲线,在连接的过程中要删除曲线中所有凹陷处的点,从而保证连接得到的ROC曲线外壳拥有一个单调递减的斜率,这样基于统计计算的TP率和FP率就能从ROC曲线凸壳上中找到最优分类器(孙长亮,2006;宋花玲,2006)。(2)ROC曲线分类性能评价指标目前基于ROC曲线的评估指标有很多,其中应用比较广泛的就是通过计算ROC曲线下面积AUC(Area Under the Curve),来进行分类性能的评估(涂福泉等,2007;张晓龙和江川,2007)。在比较多个分类器时,只需要比较它们对应曲线下所占的面积,用AUC值的大小来评价分类性能即可。

证据加权分析法应用于成矿靶区预测成矿信息变量选择证据加权分析法成矿预测数据包括了成矿地质背景、地球化学、遥感地质信息共17个证据图层和1个已知地质矿产信息图层,参加证据加权分析法的计算,把划分好的网格统计单元的属性数据代入证据加权分析法,计算综合信息变量的正、负权重值,及其之间的差值大小,通过权重差值的大小来度量对应的证据图层与矿床产出的关联性大小,当证据权反差达到一定强度时,可以认为找矿证据具有较强的成矿指示作用。对比分析各个证据图层的关联强度系数,设定0.35作为阈值,把关联强度系数小于0.35的3个证据图层剔除掉,将剩余的14个证据图层和1个已知矿点和矿化点图层,作为证据权模型的建模数据,并14个证据图层编号。

证据权模型建模及预测证据加权分析法要求所有的证据之间必须是条件独立的,因此在作图层综合前,需先检验14个证据图层的相互独立性,常用的条件独立性检验方法是G2检验(Agterberg,1990)。计算优选出的14个信息变量两两配对的G2检验表:根据Agterberg(1990)的研究结果,表格的上三角区的值与单元大小无关,而下三角区的值随着单元规模的减小而增大。上三角的χ2分布自由度为1,下三角的χ2分布自由度为2。在显著性水平α=0.05时,χ2=3.841,α=0.01时,χ2=6.635,从表5.3中可以看出,14个证据图层基本满足条件检验。在建模之前,需要对每个证据图层,正负权重系数以及其对应的方差、偏方差进行估算。基于模型公式,对划分的每一个网格单元的成矿后验概率进行了计算,并将统计结果绘制成矿后验概率空间分布图和后验概率偏差空间分布图2。