版权归原作者所有,如有侵权,请联系我们

[科普中国]-大型数据处理

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

大型数据是指庞大和复杂的数据。大型数据处理通常是收集和操纵数据项以产生有意义的信息。从这个意义上讲,它可以被视为信息处理的一个子集,以任何方式检测信息的变化(处理) 观察员。

数据处理数据处理可能涉及各种过程,包括:

1、验证 - 确保提供的数据正确且相关。

2、排序 - 以某种顺序和/或不同的集合排列项目。

3、摘要 - 将细节数据简化为主要内容。

4、聚合 - 组合多个数据。

5、分析 - 数据的收集,组织,分析,解释和呈现。

6、报告 - 列出详细信息或摘要数据或计算信息。

7、分类 - 将数据分成各种类别。

应用大数据已经大大增加了信息管理专家的需求,因此软件公司,甲骨文公司,IBM,微软,SAP,EMC,惠普和戴尔已经在专注于数据管理和分析的软件公司上花费了150多亿美元。 2010年,这个行业的价值超过1000亿美元,并且每年增长近10%:大约是整个软件业务的两倍。

发达经济体越来越多地使用数据密集型技术。全球有46亿移动电话用户,有10亿到20亿人上网。[6]从1990年到2005年,全世界有超过10亿人进入中产阶级,这意味着更多的人变得更有文化,这反过来又促进了信息的增长。世界通过电信网络交换信息的有效能力是1986年281PB,1993年471PB,2000年2.2艾字节,2007年65艾字节,预测到2014年互联网流量每年达到667艾字节。根据一项估计,全球存储信息的三分之一是字母数字文本和静止图像数据,这是大多数大数据应用最有用的格式。这也显示了尚未使用的数据的可能性(即,以视频和音频内容的形式)。

虽然许多供应商为大数据提供现成的解决方案,但专家建议开发定制的内部解决方案,以解决公司有足够技术能力的问题。

政府在政府流程中使用和采用大数据可以提高成本,生产力和创新效率,但并非没有缺陷。数据分析通常需要政府的多个部门(中央和地方)协同工作,并创建新的创新流程以实现预期的结果。CRVS(民事登记和人口统计)收集从出生到死亡的所有证书状态。 CRVS是政府的大数据来源。

国际发展关于有效利用信息和通信技术促进发展的研究(也称为ICT4D)表明,大数据技术可以做出重要贡献,但也对国际发展提出了独特的挑战。大数据分析的进步为改善关键发展领域的决策提供了具有成本效益的机会,如医疗保健,就业,经济生产力,犯罪,安全,自然灾害和资源管理。此外,用户生成的数据为闻所未闻的人提供了新的机会。然而,发展中地区长期存在的挑战,如技术基础设施不足以及经济和人力资源短缺,加剧了对隐私,不完善的方法和互操作性问题等大数据的担忧。

制造业基于TCS 2013全球趋势研究,供应计划和产品质量的改进为制造业的大数据提供了最大的好处。大数据为制造业的透明度提供了基础设施,这是解决诸如不一致的组件性能和可用性等不确定性的能力。预测性制造作为一种适用于接近零停机时间和透明度的方法,需要大量数据和先进的预测工具,以便将数据系统化地转化为有用信息。预测制造的概念框架始于数据采集,其中可获得不同类型的传感数据,例如声学,振动,压力,电流,电压和控制器数据。除历史数据外,大量的感官数据构成了制造业的大数据。生成的大数据可作为预测工具和预防策略(如预测和健康管理(PHM))的输入。

卫生保健大数据分析通过提供个性化医疗和规范分析,临床风险干预和预测分析,减少浪费和护理可变性,自动对患者数据进行外部和内部报告,标准化医疗术语和患者登记以及零散点解决方案,帮助改善医疗保健。一些改进领域比实际实施更有抱负。医疗保健系统内产生的数据水平并非微不足道。随着mHealth,eHealth和可穿戴技术的日益普及,数据量将继续增加。这包括电子健康记录数据,成像数据,患者生成的数据,传感器数据和其他形式的难以处理的数据。更需要这种环境更加注重数据和信息质量。“大数据通常意味着'脏数据',数据不准确的比例会随着数据量的增长而增加。”在大数据范围内进行人体检查是不可能的,并且在卫生服务中迫切需要智能工具来实现准确性和可信度控制以及错过信息的处理。虽然医疗保健领域的大量信息都是电子化的,但它适合大数据保护伞,因为大多数信息非结构化且难以使用。

教育麦肯锡全球研究院的一项研究发现,缺乏150万训练有素的数据专业人员和管理人员,包括田纳西大学和加州大学伯克利分校在内的一些大学已经创建了满足这一需求的硕士课程。私人训练营也开发了满足这种需求的计划,包括像The Data Incubator这样的免费计划或像大会这样的付费计划。在营销的特定领域,Wedel和Kannan强调的问题之一是营销有几个子域(例如,广告,促销,产品开发,品牌推广),它们都使用不同类型的数据。由于不适合采用一刀切的分析解决方案,商学院应该让市场营销经理对这些子领域中使用的所有不同技术有广泛的了解,以便全面了解并与分析师有效合作。

对大数据范式的评价一个关键问题是,我们对导致大数据典型网络特征出现的潜在经验微观过程知之甚少。在他们的批评中, Snijders,Matzat和Reips指出,通常对数学属性做出非常强烈的假设,这些假设可能根本不能反映微观过程中真正发生的事情。马克格雷厄姆对克里斯安德森的断言提出了广泛的批评,即大数据将说明理论的终结:特别关注大数据必须始终在其社会,经济和政治环境中被背景化的观点。即使公司投入八位数和九位数的金额来从供应商和客户的信息流中获取洞察力,但只有不到40%的员工拥有足够成熟的流程和技能。根据“哈佛商业评论”的一篇文章,为了克服这种洞察力不足,大数据无论多么全面或分析得当,都必须辅之以“大判断”。

同样,有人指出,基于大数据分析的决策不可避免地被过去的世界所了解。有关过去经验的大量数据,如果未来与过去类似,算法可以预测未来的发展。如果未来的系统动态发生变化(如果它不是一个固定的过程),那么过去对未来几乎没有什么看法。为了在不断变化的环境中进行预测,有必要彻底了解系统动态,这需要理论。作为对这一批评的回应,Alemany Oliver和Vayre建议使用诱导性推理作为研究过程的第一步,以便为消费者的数字痕迹带来背景,并使新的理论出现。此外,有人建议将大数据方法与计算机模拟相结合,例如基于代理的模型和复杂系统。通过基于相互依赖的算法集合的计算机模拟,基于代理的模型越来越好地预测甚至未知未来情景的社会复杂性的结果。最后,使用探测数据潜在结构的多变量方法,例如因子分析和聚类分析,已被证明可用作分析方法,远远超出通常用于较小数据集的双变量方法(交叉表) 。
在健康和生物学中,传统的科学方法基于实验。对于这些方法,限制因素是可以确认或驳斥初始假设的相关数据1。在生物科学中接受了一个新的假设:没有先验假设的大量数据(组学)提供的信息是互补的,有时是基于实验的传统方法所必需的。在大规模的方法中,它是制定相关假设来解释作为限制因素的数据。搜索逻辑是相反的,并且应该考虑归纳的限制(“科学与哲学的荣耀丑闻”,C.D.Broad,1926)。
隐私权倡导者担心通过增加个人身份信息的存储和集成来代表隐私的威胁;专家小组已经发布了各种政策建议,以使实践符合隐私期望。媒体,公司甚至政府在若干案件中滥用大数据,使得几乎所有支持社会的基本制度都丧失了信任。

Nayef Al-Rodhan认为,需要一种新的社会契约来保护大数据背景下的个人自由和拥有大量信息的大公司。应监测大数据的使用情况,并在国家和国际层面加以更好的监管。Barocas和Nissenbaum认为,保护个人用户的一种方法是了解被收集的信息类型,与谁共享,在什么约束下以及为了什么目的。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所