[科普中国]-大数据预测-

大数据预测的特征实样而非抽样

在小数据时代，由于缺乏获取全体样本的手段，人们发明了“随机调研数据”的方法。理论上，抽取样本越随机，就越能代表整体样本。但问题是获取一个随机样本代价极高，而且很费时。人口调查就是典型一例，即使一个大国都做不到每年都发布一次人口调查，因为随机调研实在是太耗时耗力。但有了云计算和数据库以后，获取足够大的样本数据乃至全体数据，就变得非常容易。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖7成以上的北美搜索市场，已经完全没有必要去抽样调查这些数据，只需要对大数据记录仓库进行挖掘和分析。2

但是这些大数据样本也有缺陷，实际样本不等于全体样本，依然存在系统性偏差的可能。所以存在一个数据规模的阈值问题。数据少于这个阈值，问题解决不了；达到这个阈值，就可以解决以前束手无策的大问题；而数据规模超过这个阈值，对解决问题也没有更多的帮助。我们把这类问题称为“预言性数据分析问题”，即在做大数据处理之前，可以预言，当数据量到达多大规模时，该问题的解可以达到何种满意程度。如何确定阈值?当前的学术界还没有一个完整的解决方案。

效率而非精确过去使用抽样的方法，就需要在具体运算上非常精确，因为所谓“差之毫厘便失之千里”。设想一下，在一个总样本为1亿人口中随机抽取1000人，如果在1000人上的运算出现错误的话，那么放大到1亿中偏差将会很大。但全样本时，有多少偏差就是多少偏差而不会被放大。谷歌的人工智能专家诺维格写道:大数据基础上的简单算法比小数据基础上的复杂算法更加有效。数据分析的目的并非就是数据分析，而是有多种决策用途，故而时效性也非常重要。

精确的计算是以时间消耗为代价的，在小数据时代，追求精确是为了避免放大的偏差不得已而为之。在大数据时代，快速获得一个大概的轮廓和发展脉络，就要比严格的精确性要重要得多。但是，在需要依赖大数据进行个性化决策时，张冠李戴是个很大忌讳，精确性就变得非常重要。所以在效率和精确之间存在一个平衡点，这是大数据预测中一个棘手问题。

相关而非因果大数据研究不同于传统的逻辑推理研究，需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳，因此继承了统计科学的一些特点。统计学关注数据的相关性或称关联性。所谓“相关性”是指两个或两个以上变量的取值之间存在某种规律性。“相关分析”的目的就是找出数据集里隐藏的相互关系网(关联网)，一般用支持度、可信度、兴趣度等参数反映相关性。难道大家都喜欢购买A和B，就一定等于你买了A之后的果就是买B吗?未必，但的确需要承认，概率很大。知道喜欢A的人很可能喜欢B但却不知道其中的原因。

亚马逊的推荐算法非常有名，它能够根据消费记录来告诉用户可能会喜欢什么，这些消费记录可能是别人的，也可能是该用户历史的记录。但它不能说出喜欢的原因。如果把这种推荐算法用于亚马逊的物流和仓储布局，仅仅了解相关性远远不够，必须“知其然，还知其所以然”。否则将带来额外的损失。这也是相关性预测和因果性预测的分界线。

大数据预测案例2009年全球首次出现甲型H1N1流感，在短短几周之内迅速传播开来，引起了全球的恐慌，公共卫生机构而临巨大压力，如何预防这种疾病的传染。预防的核心是预测病情的蔓延程度，现实的情况是人们可能患病多日、实在忍不住才会去医院，即使医生在发现新型流感病例时，同时告知美国疾病控制与预防中心(CDC ),然后CDC汇总统计，整体上大约需要两周时间。对于一种飞速传播的疾病而言，信息滞后两周将会带来非常严重的后果，能否提前或者同时对疫情进行预测呢?

碰巧的是，在甲型H1N1流感爆发的几周前，谷歌的工程师们在《自然》杂志上发表了论文，通过谷歌累计的海量搜索数据，可以预测冬季流感的传播。在互联网普及率比较高的地区，当人们遇到问题时，网络搜索已经成为习惯。谷歌保留了多年来所有的搜索记录，而且每天都会收到来自全球超过30亿条的搜索指令，谷歌的数据分析师通过人们在网上的搜索记录就可以来完成各种预测。就流感这个具体问题，谷歌用几十亿条检索记录，处理了4.5亿个不同的数字模型，构造出一个流感预测指数。结果证明，这个预测指数与官方数据的相关性高达97%。和CDC流感播报一样，可以判断流感的趋势和流感发生的地区，但是比CDC的播报可以提前两周，有力地协助卫生当局控制流感疫情。

总之，2009年甲型H 1N 1流感爆发的时候，与滞后的官方数据相比，谷歌的流感趋势是一个更有效、更及时的指示标。公共卫生机构的官员获得了非常及时、有价值的数据信息。谷歌并不懂医学，也不知道流感传播的原理，但是以事物相关性为基础，以大数据为样本，其预测精准性与传统方式不相上下，而且其超前性是传统方式所无法比拟的。

大数据预测的流程大数据的“4V”特征表明其不仅仅是数据海量，对于大数据的分析将更加复杂、更追求速度、更注重实效。数据量呈指数增长的同时，隐藏在海量数据的有用信息却没有相应比例增长，反而使我们获取有用信息的难度加大。以视频为例，连续的监控过程，可能有用的数据仅有一两秒。数据科学家必须借助预测分析软件来评估他们的分析模型和规则，预测分析软件通过整合统计分析和机器学习算法发挥作用。

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方而，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

IBM SPSS和SAS是两个数据科学家常用的分析软件。R项目则是一个非常流行的开源工具。如果数据量大到“大数据”的程度，那么还需要一些专门的大数据处理平台如Hadoop或数据库分析机如0racle的Exadata。

大数据预测面临的困境21世纪以来，爆炸性增长的“未来新石油”逐渐俘虏人类社会。海量相关关系的过度分析大面积披露数据隐私，掌控核心资源的预测方肆意侵害数据对象的知情权与收益权；数据主导决策模式的无差别适用逐渐磨灭创造力、限制自山发展，全面破坏终极尊严、平等自山、公平正义等最基本的伦理衡标。3

结果预判挑战自由巨量数据结果预判促使大量企业放弃高风险的试错创新，整个社会全力追逐大概率反向提高预测精准度，最终完全击垮自主运营模式。再次，随着国际互动与利益交换全面数据化，结果预判口渐披露各国政府出于国家安全与秩序稳定等利益考量而隐瞒的特定决策理山和过程。例如，预测方对口本军国主义演变轨迹、中国军力增减趋势及欧美海外军事干预等的量化分析逐渐成为国际政治格局的重要影响因素。

隐私披露挑战尊严大数据预测系统使巨量结构化与非结构化数据中分离识别真实资料与意图，逐步达到只要有合理的商业动机推动数据挖掘过程，任何形式的隐私都是算法上不可能。广大用户陷入以隐私披露为代价获取便利的个性化服务之尴尬境地，尊严受损现象层出不穷。

信息垄断挑战公平虽然大数据预测引领人类无限接近控制未来的终极梦想，采集与分析过程却不可能彻底消除人为推断与解释数据造成的隐性偏差。山于资源与技术实力处于劣势的社会主体难以察觉预测方篡改数据内容的不法行为，一些追求利润最大化的企业通过假造分析与预测结果控制市场活动、舆论导向与政治格局等，打破整个社会的平衡状态。同时，预测方不仅未告知数据权人信息挖掘的真实情况，还利用避风港原则与格式合同附加条款等规避通知义务、安保义务与收益分享义务等。大量偏远乡村与贫困人口的信息化程度远不及城镇地区与富裕群体，大数据预测在经济发达地区与人群的迅速普及导致地区性与阶层性信息垄断，剥夺弱势群体的平等竞争机会。

固化标签挑战正义海量数据储流实现了信息资源的永久保留。大数据预测通过对包括数据权人删除或遗忘的信息在内的巨量数据的上百万次假设验证控制错误率，揭不员工离职倾向、客户消费能力与死亡期、社会主体违法犯罪的可能性等，严重违反文明社会“所有人一律平等”的基本伦理要求并剥夺寻找新的生存与发展机会的基本权益。