迷人的数据与香农的视角
**主持人:**您十五年来专注于大数据的技术、产品与管理的工作,从IBM到微软也推动了不少大数据领域的产品创新落地,是什么促使您一直做数据?
**作者:**一句话,数据是迷人的。从底层的技术体系架构,到价值变现的商业模式探索,从两阶段提交,到分布式总账,从神秘的钟形曲线,到香农的信息熵,从奇异值分解,到alpha狗,如果你有geek精神,喜欢探索事物最本质的意义,你会发现这每一个细分领域都有无限的未知驱使你去探索思考。探索的久了,思考的深了,你看待世界的角度就变了,尽管有很多时候或许仅仅是自圆其说的收获。
**主持人:**有些飘在空中的感觉,能举个例子吗?
作者:今年是香农百年诞辰,微信群里不少纪念文章。记得n年前初次接触香农的信息论时,第一感觉是惊奇,什么样的情境启发了老人家当年想到用概率分布的对数来定义信息量?接下来就是无尽的疑问了,为什么取名叫信息熵?这根热力学的熵为什么惊人的一致,难道仅仅是巧合或简单借鉴?大学时学习概率统计时就觉得神一样存在的钟形曲线,与最大熵是什么关系?为什么沙子流过筛子,形成大大小小的钟形?这是上帝存在的证据吗?我是唯物论者。记得当时数月的时间一直断断续续思考这些问题,直到有一天,我自圆其说的“顿悟”了:
人类通过观测了解这个世界,对任一复杂系统的观测,均体现为信息。事物由不同层次的随机变量展现出来的信息来表达,这些随机变量有些显式可以观测,有些隐含不易观测( latent variable,对,就是潜变量)。从微观到宏观,不同层次上的随机变量携带不同的信息,共同组合影响上一层的随机变量的信息表达。这听起来似曾相识,用机器学习处理图像的同学肯定想得起,从像素点到轮廓,再到模糊人脸,到清晰的五官。
随机变量对外表达的信息取决于该随机变量不同取值出现的可能性(概率分布,多数还是条件概率分布),因而用随机变量的概率来定义信息量有极其深刻的物理意义。
主持人:有点意思,这跟热力学熵怎么扯上关系的?
**作者:**每一个热力学系统对外表现出宏观的特征,温度、压力、体积等,这就是这个系统的一张脸,而其内部却是由无数不确定位置、速度、形态的分子原子组成,类似人脸图像中的那些不同灰度的像素点,新技能get了吧? 从这种香农的高度观察思考世界,哪哪都是一样的。那些无约束,充分发展了的随机变量,达到了势能最低的稳定状态,这时候看看它的概率分布,神秘的钟形出现了。
**主持人:**您刚才提到的alphago, 前一段时间确实是风光无限,有什么可以分享的?
作者:我其实不了解alphago, 很难想象我这样一个不会下围棋的人能有什么特别的对alphago的理解。我分享一些基础的吧 : 矩阵的奇异值分解,这个大一上线性代数课就接触过,当时被我当作迂腐的学究搞的符号游戏的东西,却是后来带我领会机器学习众多怪异算法的一只导盲alpha狗。
当时学到的游戏是:任何一个mxn的矩阵A, 都可以分解成三个矩阵的乘积, UEV’, U,V都是正交基组成的方阵,E是对角阵(可以不是方阵)。然后呢,然后就没有然后了。好吧,我们要像香农一样看着窗外的时候,思考着石头树木分别是哪些随机变量表达的;像牛顿那样,被苹果砸中了会鼓捣出万有引力定律,而不是吃掉苹果后回家。这些UEV都在做什么?
想象空间中的一个点(也可以叫向量)到另一个点的运动,也就是从一个向量变成另一个向量。其间发生了什么?从几何意义上看,不过是一个向量分解到V上,然后分别做E描述的拉伸,再分解到U上。这个点到点的运动系统对外展现的信息用A表达了出来,而A中蕴含的动作是,在某些特定方向上的拉伸,也就是这个UEV中包含了A的潜变量,描述了运动的尺度与角度,在赋范空间,还会有长度,距离,体积这样的概念。A就是这个点到点运动的活生生的“脸”,UV中的正交基与E中的奇异值则详细表达了这张脸。选择或摈弃某些奇异值,你可以得到压缩或降噪的另一张脸。
**主持人:**温故而知新,没想到一些看似基础的枯燥的东西有这么神奇的用途。
**作者:**是啊,不止于此。它还是众多著名机器学习算法(PCA, LDA等)的核心,文本分析挖掘领域的重要工具,等等。
**主持人:**谈了许多的技术话题,从大数据产业的角度,您觉得目前行业处在什么阶段,面临的问题是什么?
**作者:**对大数据而言,这是一个最好的时代,也是最坏的时代,是一个大数据你行你上的时代,也是上了也白上的时代。说最好的时代,我们有十三五的专门规划,总理的背书,各路人马的涌入,我们有日新月异的新平台、新算法;说最坏的时代,我们在数据面前,生而不平等,太多的不对称,太少的洞见,太浮躁的变现,太多的偏见,太玄的忽悠;说大数据你行你上,没有数据行吗?够吗?说大数据是石油,哪些是原油,成品油,航空燃油,还是地沟油?说上了也白上,大就是全吗?你说样本,是随机的吗?究竟大还是小?还有人说厚?有上下文吗?可以推理因果吗?你说整合,政治问题解决了吗?你说Bias, 众包网站的语料能满足高大上的客群定位吗?这些都是急需解决的问题。大数据已经吹成泡泡了,只有泡沫散尽,才知道谁在裸泳。
**主持人:**这些的的确确是问题,不过许多问题可以借助技术的进步与产业的规范来解决。
作者:数据技术,对很多人来说都是不明觉厉。铺天盖地的新名词,花样翻新的解决方案,像 T台上走秀的明星。每一个IT人,或多或少,自觉不自觉的做过技术的追星族,有大明星,hadoop、spark, 有小明星 heron、presto, 还有模仿秀 cosmos、odps IT 行业就是第二个时装行业。而这些花样的背后,有些本质上不变的东西,类似刚才谈的众多机器学习算法后的奇异值分解,这里的不变要素叫做 CAP (Consistency, Availability,Partition)。你怎么确保数据一致性的?你怎么提升系统的可用性 7x24小时不挂的?你怎么分而治之提高吞吐量的?鱼和熊掌不可兼得,还有你也不能把一脸盆水都倒进一个小碗里。架构就是取舍,任何事情都是取舍。取舍是艺术,是价值观,是经济学上的边际,是香农的视角。
作者:王庆法,数据领域专家,首席数据官联盟专家组成员。