[科普中国]-保险数据处理-

简介

数据挖掘和分析是知识发现的一个过程，是在数据处理的过程中不断发现问题，修正目标和方法，最终得出结论的过程。

随着保险公司计算机系统应用的不断推进，保险公司提出了对数据进行深入分析和应用的需求。传统软件开发的步骤简单的说可以分为：用户提出需求，设计人员设计方案，程序员编写程序，不断沟通、修改，最后交付用户使用。在数据分析中，用户很难清晰、完整的描述他的需求，或者根本不知道达到目标的方法。这也就是保险公司的程序应用中业务系统、财务系统等等可以顺利实施，有关数据处理的程序失败率很高，或者生命周期很短的一个重要原因。

保险数据处理，主要解决了保险公司数据分析中的信息孤岛问题、程序可扩展性问题、程序开发周期过长问题以及将数据分析需要的专业知识整合进系统，减少对数据分析程序操作人员专业度要求。收集多平台，多来源的数据源，建立有效的清理与整合机制，在此基础上构建为数据分析服务的统一的多维度的数据集市。提炼出一批可以应用在保险公司数据分析的算法，将比较复杂的精算模型，医学知识等整合进分析算法模型中，使最终用户不用熟知算法和一些背景专业知识就可以得到比较专业的分析结果。

经过多年来的业务发展和信息系统建设，保险公司积累了大量的历史数据，如何充分利用这些数据，把它转化成商机，一直是各家保险公司思考的问题。1

国内外研究现状国外状况国外保险业的信息化工作已经完成了基础建设的构建，并在新的领域进行有益的探索，据相关报道：

澳大利亚的AllianzElementar保险公司、SPANISHINSURER保险公司和BlueCrossandBlueShieldofFlorida保险公司利用数据挖掘工具对客户忠诚度进行分析，用以减少客户流失；

保险欺诈管理方面：据统计，美国的健康保险部门每年因欺诈损失约60亿到250亿美元，财产和意外伤害保险欺诈造成的年度亏损为约30亿美元。美国的菲尔曼基金公司运用企业数据挖掘系统对付欺诈行为和代位追偿进行分析，应用这个系统，预计每年减少欺诈行为造成的损失70万美元，同时每年实现2百万美元的代位追偿收入。

中英人寿保险有限公司(Aviva)想利用客户的生活方式数据的分析，如客户爱好、常浏览的网站、常看的节目、收入估计等来推测其患高血压、糖尿病和抑郁症等等健康隐患的概率。目前客户投保时保险公司往往需要客户提供体检报告，用来分析客户的健康状况。如果这种分析方法有效，客户就不再需要在投保时提供给保险公司体检报告。因为向客户索要体检报告是不太让客户感觉舒服的事情。英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)也在探索类似的方法。2

国内状况国内的外资保险公司目前普遍使用移植于国外母公司的软件系统，这些系统在涉及境外的保险业务上有着自己独到的优势，但是与国内的保险市场匹配上还存在着一些问题，部分外资保险公司现在也在着手开发适合国内保险的信息系统。

国内保险业的信息化进程大致可以分为几个阶段：

●1949年，保险业在国内复业：业务处理几乎全为手工化；

●1992年，产寿分业，各市、县开发了大量单独出单程序：以县、市为中心的逐步电算化；

●2000年，全险种，全流程电子化：逐步开始数据大集中建设，建设全险种，全流程的核心业务系统，提倡以服务为核心；

●2006年，保险业大集中基本完成，在保险业竞争的驱动下逐渐开始挖掘业务价值，建立“全组织、全核算”的绩效考核体系；

●2010年，IT业务融合、创新：多中心建设，新一代系统建设，创新灵活性IT架构支持快速变化、灵活变化并引导服务的创新；

●2013年，大数据理念开始被广泛接受：通过数据解读业务问题，基于大数据的预测和相关性研究。2

研究难点(1)数据的取得与清洗：保险公司数据分析需要的数据很多，取得的渠道也很多，可能来自业务系统、手工台帐、调查问卷等等，但是这些信息往往都是信息孤岛。不仅仅公司内部与外部获取的数据较难整合在一起，保险公司内部不同的业务系统中获取的数据也存在着很多不兼容的因素。同时，获取了大量信息后，不可避免的存在各种数据质量问题，需要进行有效清洗以后才能应用到处理系统中。

(2)客户的需求不清晰：数据分析是一种知识发现的过程，客户很难一开始就明确的提出流程，需求和分析点。有时候用户在数据分析过程中发现了一些有用信息，又会进一步提出新的需求，而这种需求的提出是不确定的。传统软件设计流程基本上都要求客户在程序设计的开始阶段就提出明确的需求。显然这种模式应用到数据分析领域会有很大的问题。

(3)用户希望有一个“简单”的系统：无论中间的过程是简单还是复杂，最终用户往往需要的是简单的数据分析系统。这里的简单主要是指：

a、操作简单：不需要繁杂的操作就能得到结果；

b、算法简单：在数据分析中尽量使用用户普遍接受的算法或者已经公认，可信度很高的算法，用户如果对算法理解困难，对最终的分析结果接受度并不高。

c、结论简单：即使是预测，用户也不希望看到不确定的结论，并且结论是可以基于多种假设的，假设是可以改变的。

(4)找到大数据思想与保险公司数据分析实际需求之间的契合点，设计一套切实可行的方案，还需要综合考虑实现成本与实现方式。企业本质上是追逐利润的，不能给企业带来利益或者性价比不高的项目在企业里是没有多少生命力的。2

保险公司数据源的收集与处理三类数据源的处理方式不同来源的数据有其自身的特点。可以把数据源分为三类，

第一类为别的计算机程序生成的数据，这类数据一般的特点是数量大，容易被程序识别，缺点是可能包含无用的垃圾数据，这类数据处理相对比较容易，只需要在分析程序里建立好相应的抽取机制即可使用。我们使用语句建立筛选、过滤与替换机制，可以得到大量质量较高的源数据。

第二类是人工录入的数据，这类数据一般的特点是数据量较小，信息含金量较高，但是错误率较高，如果简单的使用过滤机制将会损失大量的有效信息。这时候可能需要先对原始数据进行汇总，再使用一些识别机制找出错误信息并进行修正。例如Excel是目前比较流行的办公处理软件，很多手工信息登记为Excel格式。如果手上有大量相同格式的Excel数据，可以先用程序将信息汇总到一张表里。把同一文件夹下所有的Excel信息进行汇总。再结合业务规则对信息进行统一校验、整理。整理成的数据将是干净的有价值的数据，转换成文本格式就可以被数据库识别。

第三类是假设数据，需要给用户一个方便的录入端口，并要把它与真实数据进行区分，使其不影响将来的其他分析。

数据质量的主要控制点数据的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括：业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

影响数据质量的因素主要来源于四方面：信息因素、技术因素、流程因素和管理因素。

信息因素：产生这部分数据质量问题的原因主要有：元数据描述及理解错误、数据度量的各种性质(如：数据源规格不统一)得不到保证和变化频度不恰当等。

技术因素：主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。

流程因素：是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题，主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。

管理因素：是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷陋引。

原始数据清理是一件耗时耗力的过程，基本思路是针对影响数据质量的几大因素，总结业务规则，按照一定的识别规律，找出异常值，有明确规则的按规则进行修改，识别困难的进行报错，进行人工纠错。2

两种数据挖掘模型根据海量保险客户资料，分析客户：性别、年龄、婚否、职业、收入、教育程度等特性，建立数据挖掘模型，预测已购买保险的客户可能还会购买哪些保险，还需要哪些保险责任，未购买保险的新客户，根据其客户特性，预测其最可能购买哪些保险及哪些保险责任，这些预测信息可用于老客户保险深度挖掘，也可为新入司销售人员提供业务指导。在该项目中，可使用决策树和关联规则进行预测。

①决策树是把根据条件(不论是离散还是连续)自动分解为多个离散的类别，典型应用为一个或多个变量预测目标，变量对目标的重要程度，如：预测客户是否会购买某种产品，适用于分类、预测，预测潜在客户；

②关联规则是处理海量历史数据，快速找出产品之间的关联，找出“先购买什么?然后购买什么?接下来购买什么?”的规则。1