卡塔尔世界杯自 2010 年荣膺举办权,直至 2022 年辉煌成功举办,累计投入资金高达约 2,290 亿美元。相较之下,此前七届世界杯的总花费仅约 400 多亿美元。这场体育盛事展现出奢华无度的风采,归根结底源于卡塔尔这个国度的深厚底蕴。正所谓「家中有矿,心中不慌」,卡塔尔正是凭借丰厚的矿产资源,得以尽情挥洒钞票,打造一场场视听盛宴。
矿产资源,对个人而言,意味着取之不尽的巨额财富,令人神往;对社会而言,则是经济社会发展的重要支柱,关乎国计民生和国家安全。然而,矿产资源并非唾手可得,它们藏于地下数百米之处,往往要历经千辛万苦,才能勘查出宝贵的矿产资源。
随着矿产勘查学科的不断发展,业内已经逐步形成以「成矿系统-勘查系统-预测评价系统」为指导的研究路线。尽管人工智能在矿产资源预测评价 (MPM) 系统中发挥着越来越重要的作用,但其应用仍存在一定的局限性,往往使得地质学家难以相信最终结果。
为了提升成矿预测模型的可解释性,以及成矿过程中因地质因素导致的空间非平稳性,浙江大学的研究团队提出了一种新的地理空间人工智能方法——地理神经网络加权逻辑回归 (geographically neural network-weighted logistic regression, GNNWLR)。
该模型集成了空间模式 (spatial patterns) 和神经网络,结合 Shapley 加性解释理论,不但能够大幅提升预测的准确性,并且能够在复杂的空间场景中提升矿物预测的可解释性。
MPM 过程
研究亮点
* 提出了一种地理神经网络加权逻辑回归模型 GNNWLR
* GNNWLR 在矿产资源预测评价方面优于其他先进模型
* GNNWLR 克服了空间异质性和非线性影响
* GNNWLR 提升了人工智能用于成矿机制的可解释性
论文地址:
https://doi.org/10.1016/j.jag.2024.103746
角逐全球 MPM 试验场:加拿大新斯科舍省 Meguma 地区
该研究主要围绕加拿大新斯科舍省西部面积约 7,800 平方公里的 Meguma 群,该地区主要覆盖草原和森林。Meguma 地体由两层地层组成,下层为 Goldenville 群地层,主要由变质砂岩组成。上层为 Halifax 群地层,由页岩复杂岩石组成。
由于阿卡迪亚造山运动和泥盆纪花岗岩的侵位作用,该地区形成了一系列北东-南西走向的褶皱构造,已成为多种矿产资源预测评价系统的试验场。
简化的地质图和要素图层
研究区域内共有 20 处浊积岩金矿床。因此,该研究使用了 6 个特征层,包括背斜构造因素,Goldenville 和 Halifax 地层之间的接触因素,以及铜 (Cu)、铅 (Pb)、砷 (As) 和锌 (Zn) 等化学元素。
其中,该研究对背斜以及 Goldenville 和 Halifax 地层之间的接触面,进行了多环缓冲区分析 (multiple-ring buffer analysis),以 0.5km 的间隔分配相应权重,共形成了 16 个缓冲区环。同时,该研究还对 671 个含有化学元素的湖泊沉积物样品进行了反距离加权插值 (IDW)。最后,该研究对整个研究区域进行网格化处理,将所有特征层统一为 1km x 1km 的栅格数据。
由于 20 个正样本相对于整个研究区域而言仍然太小,正负样本的比例比较容易出现不平衡的情况。所以,该研究还对缓冲区进行了分析,围绕 20 个正样本点划分 2km 半径,然后进行栅格化分析。
最终,该研究共获得 245 个阳性样本,代表此处存在矿藏,其他则表示不存在。同时,该研究从负样本集中随机选择与正样本相同数量的数据,并与正样本合并以创建训练集和验证集。
GNNWR 模型:有效集成神经网络
由于地理神经网络加权回归 (GNNWR) 的模型结构使用了均方误差,直接将其应用于矿产资源预测评价中可能会带来收敛挑战。研究证明,交叉熵比均方误差更具实用性优势。因此,该研究采用了专门为逻辑回归设计的损失函数——二元交叉熵 (binary cross-entropy, BCE)。在此背景下,GNNWLR 首先计算每个数据点的空间坐标,与训练数据集中其他数据点的空间坐标之间的距离,并以此作为输入,进行 dropout 正则化并防止过度拟合。
其次,该研究通过神经网络输出的空间权重向量,与最小二乘法得出的系数和自变量的值进行点积运算,随后应用逻辑回归函数生成最终的预测值。
最终,该研究使用二元交叉熵损失函数计算相对于实际值的损失,并以此指导神经网络进行负反馈调整。
GNNWLR 模型构建
在该研究中,研究人员还针对目前最为常见的地理加权回归 (GWR)、支持向量机 (SVM)、随机森林 (RF)、地理加权逻辑回归 (GWLR)、地理加权支持向量回归 (GWSVR)、随机森林 (GWRF) 模型进行比较。
具体来看,该研究采用五折交叉验证 (five-fold cross-validation),将 20 个矿床随机分为 5 个序列,每个序列有 4 个矿床,然后对这 4 个矿床进行缓冲半径为 2km 的缓冲分析,以获得每个序列的阳性样本。类似地,该研究还匹配正样本数量从负样本池中随机选择负样本,并且每个负样本在五折交叉验证中仅出现一次。
依据五折交叉验证理论,其中 4 份样本集被用于训练,1 份样本集被用于验证,这个过程重复 5 次,每个序列分别作为一次验证集,最终将五折交叉验证得到的训练集和验证集进行合并。
从结果来看,由于 GNNWLR 模型对神经网络的有效集成,GNNWLR 明显优于其他模型,在矿物分类方面表现出卓越的拟合和预测能力,AUC 为 0.913,较其他模型高出 5%-16%。同时,GWRF 和 GWSVR 也明显优于 RF 和 SVM,这可能是因为它们都结合了地理加权回归 (GWR),可以更准确地描述空间变量之间的局部关系。
各模型性能比较,GNNWLR 表现最优
所有模型的 MPM 图也都直观表明,新斯科舍省的矿产前景在空间上存在较大差异,东北地区的得分整体更高,与矿床的实际位置一致。然而,面对远离集中区的金矿资源,GNNWLR 可以发现更多容易被其他模型忽略的矿床。
例如,GNNWLR 在「区域1」的得分高达 0.985,而 GWSVR、GWRF、GWLR、SVM、RF 和 GWR 模型的相应得分仅为 0.288、0438、0.471、0.133、0.383 和 0.290 。
不同模型获得金矿床的预期目标区域
此外,RF 和 SVM 模型在「区域 2」和「区域 3」中表现出突然跳跃,这影响了它们的准确性和可靠性。GNNWLR、GWLR 和 GWR 模型考虑了成矿因素的空间邻近性和异质性,可以防止传统机器学习模型中常见的突变的发生。据观察,GNNWLR 在捕获这些因素之间复杂的非线性关系(特别是与空间变化相关的因素)方面,表现出卓越的能力。
因此,GNNWLR 在预测矿产前景方面,表现出相对无缝的过渡,显示出与经验数据一致的更高精度和一致性。
SHAP 可定量分析成矿影响因素
为了提高模型评估的可解释性,该研究集成并使用整个数据集的正样本集,计算 GNNWLR 中相关位置的矿产前景特征。
结果表明,As 对模型输出的影响最大,并与 SHAP 值呈现正相关,As 值越大,SHAP 值越高,矿化的可能性越大,这可能由于 As 是一种低温热液元素,常与金矿床相关。类似地,Zn 对许多矿区都有负面影响,而 Cu 的影响最不显著。其中,As、Pb 是与雄黄和方铅矿等矿物伴生的低温热液元素,Zn 和 Cu 是形成闪锌矿和黄铜矿等矿物的中温热液元素。综上所述,该地区的金矿形成与低温热液过程密切相关。
6 个要素图层的 SHAP 值
通过对不同区域不同特征的矿化影响进行评估,该研究发现「区域 4」的矿化与背斜和 Pb 强相关,「区域 5」存在两个矿藏,其中北部矿床受 Cu、Pb、Zn、As 四种元素的积极影响,表明该低区同时具有中温热液和低温热液成矿作用;南部矿床受到 Zn 和 As 的正向影响,表明其中以中温热液为主。
结合新斯科舍省自然资源部的钻探数据,「区域 5」北部矿床有 39 条和金矿有关的地质钻探记录,涉及多种低温中温热液矿物,「区域 5」南部矿床与金矿相关的地质钻探记录仅有 4 条,矿床区主要含有硫化物、毒砂等中温热液矿物。「区域 6」的矿化与背斜接触密切相关,这也证实了基于 SHAP 值的空间分布对矿化类型的推断。
区域5两个矿床钻探数据中其他矿物与金矿共生的频率
综上,基于 SHAP 值的模型可以对整个空间域内影响成矿结果的各种因素进行定量分析,具有卓越的可解释性并符合地球科学原理。同时,该研究还比较了 SHAP 值与回归系数的空间分布图。结果表明,回归系数的空间分布并不完全符合地质规律。因此,SHAP 值比传统的回归系数更有意义,更易于学者参考。
GNNWLR模型6个特征层回归系数的空间分布
浙江大学杜震洪教授:专注时空大数据与人工智能科研工作
浙江大学地球科学学院杜震洪教授所带领的研究团队,长期从事遥感与地理信息系统、时空大数据与人工智能的科研工作,在面向地理、海洋、地质灾害等领域的时空大数据分析基础理论与关键技术研究上取得了系列成果,正带领团队将 GIS、遥感、计算机科学与地理、海洋、地质等充分融合,展开探索数据驱动的地学发展新篇章。
参考资料:
1.https://www.zast.org.cn/art/2022/12/8/art_1675105_58963288.html