区块链+大数据,开启数字时代新篇章

通证观察局 2019-10-31 作者:九辰田

  大数据与区块链结合已经变成许多人大脑里的想法了,我们如何认识大数据?区块链如何解决大数据的有关问题?首先我们要了解大数据以及优势与不足,然后再思考如何结合区块链技术进行升级。

  ok,Let's go!先一起聊聊大数据吧~

  

  如今,“大数据”算是耳熟能详的一个词汇了,大家也肯定都知道类似“抖音”、“淘宝”可以根据大数据以及算法来推送一些“你想看的东西”,看到这里你可能要问了,为什么这里要用引号呢?

  那小编就说几件亲身经历的事情来说明,其实利用大数据来推送也会有一些令人不太愉快的体验。

  一个是关于淘宝购物,当你搜索某件并不是需要频繁购买的物品后,就比如行李箱的替换滚轮,淘宝会在那一段时间都推送这种商品,不管你是否已经买了它。

  另一个就是抖音,当初傻傻的小编为了打发时间下载了抖音,当看到别人结婚的视频就会多看几眼直到播完,到最后每一个视频都为结婚视频,何必让一个单身汪承受这些?你看,这手里的奶茶突然就不甜了。

  事实证明,对小编来说,这两段经历确实不太美好,不知道你们是不是有相关经历呢?

  不过闲谈归闲谈,回到大数据上来,类似事件究竟是大数据本身的锅,还是编制的算法的锅?

  现在我们还不好下定论,但是今天小编想和我大家一起了解了解大数据它的相关情况,可能大家都知道“大数据”,但是可能不太知道其真正的运行基础或者特点。就让我们一起来看看吧~

  大数据其实就是指以多元形式采集而来的多来源的数据组,它本身有4v特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。

  Volume(大量):

  数据量大,TB,PB,乃至EB等数据量的数据需要分析处理。

  Velocity(高速):

  要求快速响应,市场变化快,要求能及时快速的响应变化,那对数据的分析也要快速,在性能上有更高要求,所以数据量显得对速度要求有些“大”。

  Variety(多样):

  大数据的异构和多样化,很多不同的形式(文本图像视频机器数据),无模式或者模式不明显,不连贯的语法或句义。

  Value(价值):

  有大量的不相关信息,价值密度低,由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

  知识卡片

  TB、PB、EB到底有多大呢?

  1TB (万亿字节 太字节)=1024GB,

  1PB(千万亿字节 拍字节)=1024TB,

  1EB(百亿亿字节 艾字节)=1024PB

  其中1024=2^10 ( 2 的10次方)

  一部高清电影约4g,1PB=1024*1024g,大数据瞬时处理1PB的数据量,就相当于瞬时处理26万部的高清电影容量。

  大家也会发现,概念上的大数据和我们生活中所说到的、所理解大数据可能不太一样。其实,我们生活中谈论到的更多是大数据+云计算。

  大量的数据被采集后成为数据组,要想为我们所用,帮助我们分析,我们就必须对其进行处理,这时我们就会运用云计算与大数据配套,将对我们有意义的数据进行专业化的处理加工,最后产生我们想要得到的结果。

  比如双十一某件商品购物人群的分布情况,最初获得的是每一个购物人的收货地点,这就是大量未经处理的数据,当经过云计算专业处理加工过后,结果就一目了然了。

  对现代社会来说,大数据确实也是一个具有超高优势的工具。此前,数据应用之初,人们对数据的作用没有如现在这般的认识,数据一旦完成收集后,就会其失去其意义。

  

  就比如说,我们在网络上搜索完成得到结果后,这一项搜索指令也就失去意义了。但是现在大数据不同,它结合技术可以利用这些数据分析进行实验,对完成某些实验课题有重要作用。

  就拿企业经营来说,其可以真正仔细的研究和分析一个企业在各个方面制定的战略方针,在本公司实验和创新时,大数据可以给研究带来更加庞大的的数据量,从而可以从分析后得出的结果出发,实施更利于公司的行为,这就相当于处在竞争的优势方。

  从另一个角度来说,大数据改变了我们对数据的处理思维。

  首先,我们对数据的取样从随机样本到全体数据。

  在我们步入大数据时代之前,由于环境的限制,我们对数据的采样有很大程度上依赖随机样本,但如今我们更加倾向于全体数据分析得出来的结果,挣脱出原先随机采样对数据分析的限制。

  其次,对数据追求从精确到混杂。

  之前我们在研究数据时,更多的是去量化强相关数据以求得到一个相对精准的结果,如今我们更多的追求不是那么强相关的数据,而是从相对庞杂全体数据中,分析获得相关结果,我们可以在一定程度上窥探此结果与其他事务的联系,可以让我们在研究上更加的有宽度。

  

  最后,我们从追求因果关系到相关关系。

  人类有多爱追求因果关系可以从议论文中看出来,但是有些事物一定是因果关系吗?

  有些我们研究的事物,不能说它们没有因果关系,就说它们的意义不大,也许就是它们改变我们未来的生活也不一定,所以寻求相关关系也是我们需要做的,大数据提供了这个机会,“全体数据”可以让我们探索数据结果之间究竟存在何种关系。

  但是万事总会有两面性,大数据也有自己的不足。

  当人们改变观念,更加依赖全面的数据的分析结果,忽略随机抽样,也就等同于忽视了其背后的精准性、逻辑思辨、推理判断。

  换句话说,人们坚信全面数据得出来的结果就是真的,人们看到的是“是什么”,而减少对随机抽样结果的质疑精神,也就是减少了对“为什么”的思考。

  

  大数据可视化

  在这种情况下,人们强调的全面数据不真实可靠,得到的结果却得到了大家的信任,这是一个非常灾难的问题,会误导人们的决策,从而导致一系列连锁反应。

  另一方面,我们提到了大数据有一个特点就是“低价值密度”,也就是说我们利用大数据也就相当于在几万本书里面找到我们想要的那5本去写论文,一是这个行动是具有难度的,二则是这样的筛选是具有主观性的,所以我们也面临了“数据提供者造假”的问题。

  比较重要的一点,在现代生活,信息泄露以及私下买卖个人信息也是人们非常痛恨的问题,在一定程度上大数据也会给我们带来一些隐私问题,比如前段时间很火的换脸软件。

  本篇关于大数据的优势与不足就和大家聊这么多,后续文章我们将会继续谈到大数据和区块链的联合,能否在一定程度上弱化大数据的不足。

  接下来,我们来和大家一起聊一聊云计算。在此之前,小编想和大家一起分享曾经的一个朋友的感受。

  他说,在看完大数据博览会以后,其他的一些东西都不太能够记得清,但唯一能够记住的一点就是:“人在做,天在看,云在算”。当时我就会心一笑,好像这句话也挺有深刻含义,侧面也体现了云计算的无处不在。

  那云计算到底是什么呢?在生活中是有非常多的定义的,人们有很多种说法。小编例出一个比较认同的观点:

  云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序,并将得到结果返回给用户,用户享受到这种服务并向服务提供者支付一定费用。

  按照服务的对象和范围,云可以分为五类:

  私有云:建一个云,如果只是为了单位(企业或机构)自己使用,就是私有云。

  公众云:如果云的服务对象是社会上的客户,就是公众云。前面提到的“机房”可以是任何社会上的企业、单位、或个人。Amazon公司的AWS是现在世界上最大的公众云。其它公众云提供商还有Google、Salesforce、苹果的iCloud等等。

  

  混合云:如果一个云,既是为单位自己使用,也对外开放资源服务,就是混合云。有时,把两个或多个私有云的联合,也叫混合云。 

  社区云:是介于公有、私有之间的一个形式,每个客户自身都不大,但自身又处于敏感行业,上公有云在政策和管理上都有限制和风险,所以就多家联合做一个云平台。

  专有云:相当于是将企业的私有云建立在云服务企业的数据中心,以类似于云托管的方式,在公有云架构上开辟出符合自身业务架构与安全性要求的云平台系统。

  云计算同大数据一样也有许多特征,其中比较突出的是五大特征:

  (1) 超大规模

  朋友们知道云计算是配合大数据进行数据计算,而大数据的一个特点就是资源来源广且庞大,处理如此庞大的数据是需要非常大的计算能力的,所以云计算超大规模这个特性需要很多服务器来帮助完成数据计算。

  (2)虚拟化

  如今许多企业服务器因使用简单,致使服务器低效率运行,导致资源的浪费。计算机硬件、软件、操作系统等运行在虚拟的基础设备上,而不是真实的设备上。

  

  设置好的多台虚拟机放置在一台计算机上,即可实现在一台物理服务器或"主机"上运行多个操作系统和应用。

  虚拟化突破了时间、空间的界限是云计算最为显著的特点。虚拟化技术提供了故障修复、迁移等方面的便利,也可以充分利用服务器CPU,提高内存和硬盘使用率。

  (3)通用性

  云不针对一个特定方面的服务,也就是说同一片“云”既可以支持企业数据分析,也可支持我们这些普通公众的对数据方面的需求。

  (4)高可靠性

  云计算体系是使用一种特殊框架,而框架中每个部件并不是单一串联或者单一并联,而是部件互相串并联形成了一个串并联系统。

  特别的是,其中的部件数量越多,其可靠性越大。我们也已经知道了云计算的规模是非常庞大的,所以云计算有很大的可靠性。

  另一方面,云计算供应商会采用多副本容错等措施来保证云计算服务的高可靠性。

  (5) 按需服务

  云计算利用高速互联网的传输能力,将数据的处理过程从个人计算机或服务器转移到大型的云计算中心,并将计算能力、存储能力以服务的方式为用户提供,用户能够像使用电力、自来水等公用设施一样使用计算能力,并按使用量进行计费。

  举个例子,就像使用云盘一样,开户的时候显示为你拥有256GB的存储空间,但事实上并不是直接在“云”上空出这256GB,而是用户先使用着,服务方会根据用户使用的量来增添服务器的量。

  其实说了这么多特性,基本上都是其优点,但是我们要辩证的看问题,云计算也有不足,一旦涉及网络,人们都会想到信息安全的问题。

  而云计算是依靠云来计算和存储数据的,一旦云上出现问题,云计算也不能独善其身。

  

  有一段时间就暴露出来国内某云储存泄露某信息的事情,服务商却一直说他们的平台是安全的,事件的根源是用户自己操作不当,而关于这件事却没有一个公正的评判。如果我们把事情往阴暗的方面想,结果就会很恐怖。

  而另一个方面,因为云计算规模大,对网络吞吐量也就大,所以云计算需要比较好的网络环境(网速稳定且快)才能带来良好的体验感,我们要对网络资源合理规划才能够使云计算应用正常运转。

  通过这些阐述相信大家对云计算有一个基础的认识,相信大家也注意到开篇所说的,云计算如同区块链也是具有分布式的性质,下一篇文章我们就会进入对大数据和区块链结合的可能性进行交流。我们下期再见!

  参考资料:

  1.大数据有什么优势?

  https://wenku.baidu.com/view/565ba9abac51f01dc281e53a580216fc700a53fe.html

  2.浅谈大数据的缺陷

  https://wenku.baidu.com/view/2d39afa6b8f3f90f76c66137ee06eff9aef849fd.html

  3.李纲, 唐迪, 王迤冉. 云计算概念及其可靠性分析[J]. 现代计算机(专业版), 2014(23):39-41.

  4.(云计算)虚拟化概述、讲解:https://blog.csdn.net/qq_38959715/article/details/80956005

  5.云计算 https://baike.baidu.com/item/%E4%BA%91%E8%AE%A1%E7%AE%97#4

  6.必须知道的,云计算的五大特征!https://baijiahao.baidu.com/s?id=1591376276207569838&wfr=spider&for=pc

  7.云计算有哪些不足 https://www.west.cn/docs/42882.html

  

责任编辑:王超

科普中国APP 科普中国微信 科普中国微博
通证观察局
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢