陆奇的“大模型世界观”
陆奇最新演讲实录:《我的大模型世界观》刷屏了,陆总最擅长的是1到100的宏大叙事,作为AI 和 大模型的布道师,着实把国内大模型拉到了沸点。笔者也有机会借着陆总的热度,把近期自己的一系列思考,通过这篇演讲实录串了起来。
“这个时代跟淘金时代很像,”他说道,“如果你那个时候去加州淘金,一大堆人会死掉。但是卖勺子、卖铲子的人永远可以赚钱。”
大模型是未来智能解决方案的新底座,兵家必争之地,马斯克明修栈道暗渡陈仓也是看清了形势。但目前鱼龙混杂泥沙俱下,人们得睁大双眼看准机会点。聪明人都想卖水卖铲子的时候,我们得考虑卖点什么给他们?产业链就此形成。笔者在朋友圈征询了一下,最后大家的建议是,给这些卖水卖铲子的人,卖房子,卖保险,卖维权服务。
陆总其实是提醒大家,不要一窝蜂做基础大模型。笔者引申一下,做大模型你离不开产品经理的产品思维:永远从产业链配套角度思考创业创新的切入点,例如创意供应链是大模型的最佳应用场景,不要都做chat。产品思维的本质:思考产业链的价值点,判断价值变化趋势,评估自身资源禀赋。在此意义上,中国太缺有原创思维的产品经理了。
简单想一想,如果你没有多大见解,你的模型能力大模型都有,或者大模型会逐步学会你所有的模型,那会怎样?——未来,唯一有价值的是你有多大见解。
笔者留言补充了一句:首先你得处于接受这个见解的价值观体系。笔者有幸在亚马逊做了几年供应链优化,最大三点收获:1. 鸡蛋里算出骨头的各个层面的优化 2. 横跨计划与履约的自上而下的数据自驱思维 3.充分解放创新束缚的研发管理机制。
这套供应链数字化的方案价值巨...大,而且都是实打实生产上跑着的算法。成功的前提是亚马逊整体企业价值观。放到国内其他企业,难免会有“橘生淮南则为橘,生于淮北则为枳”的尴尬。究其根本,这些企业的数字化,多是聪明人的口号工程,而且口号喊多了大家也就当真了。
Ilya有个信念:如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。所以,你把信息高效压缩的话,you got to have some knowledge(你得有一些知识)。
笔者理解Ilya这里说的压缩不是字面意思,而是指把书读薄,专家看门道的意思。学习的本质是从大量相关信息中提取知识的过程,即人们常说的data -> information -> knowledge 。只有提取了知识,才算学懂了。这里的知识就是“知”和“识”,information信息是"知",学通了才是"识"。
在“OpenAI首席科学家透露GPT4技术原理”中笔者总结过:GPT在自己构造的高维语言空间中,通过预训练,记录了人类海量的语言实例,从中提取了无数的结构与关联信息。这个高维的语言空间,加上训练提取的结构与关联信息,可以理解构成了GPT的脑。本质上看,GPT 其实是构建了一个高维的语言体系,可以将自然语言,程序语言,视觉听觉语言,映射(或者叫编码)到这个高维的语言空间中。高维语言空间是概率分布张成的空间。
如果哪个同学做知识图谱,我认真跟你讲,你不要用知识图谱。我自己也做知识图谱20多年,just don’t do that。Just pretty bad。It does not work at all。You should use Transformer。(不要那样做。很糟糕。它根本不起作用。你应该使用Transformer。)
其实是陆总自己在微软必应的时候,推动了必应的整个知识图谱的构建。彼时,笔者心理曾经默默的浅薄的认为知识图谱不靠谱,关键两个问题 1. 对于知识的表达能力死板而且羸弱;2. 无法及时更新。无奈朋友圈很多朋友从事这行,笔者也没有妄加评论。
“ChatGPT是第一个真正意义的人工通用智能”一文中,笔者提到:Transformer是足够强大的特征提取器。仅从知识角度,GPT可以看作是一种以模型参数体现的隐式知识图谱。知识存储在Transformer的模型参数里:多头注意力存储信息的结构(相关强度,信息整合方式等);类似Query/Key/Value结构的FFN存储知识主体。Query/Key/Value结构的FFN存储知识主体。这解决了上文的第一个问题,而第二个问题仍在,尤其是训练如此昂贵的前提下。
做大模型是很难的,很大难度是infra(基础设施)。我在微软的时候,我们每个服务器都不用网卡,都放了FPGA。网络的IO的带宽速度都是无限带宽技术(Infiniband),服务器和服务器之间是直接访问内存。
笔者非常赞同,也曾经做过这个预判:CPU -> GPU -> FPGA -> ASIC, 通用性降低,专用性提高,随着Transformer统一神经网络架构,针对Transformer特别优化的硬件(FPGA或者以谷歌TPU为代表的ASIC)将有机会取代GPU。
笔者还特意去图书馆翻了FPGA的专业书籍,发现一个有趣的可能性:让GPT用VHDL设计一款针对transformer优化的FPGA应该可行。VHDL是硬件编程语言,比C语言简单的多,还有FPGA厂家提供的IP(FFT等),模式化明显,而这是GPT的强项。ASIC太固化了,仅适用transformer局部优化,GPU扩展能力受限,也并非针对transformer最优化,所以笔者最看好FPGA。
人和数字化的技术共同进化。Sam最近经常讲,它必须要共同进化,才能达到通用智能(AGI)。通用智能四大要素是:涌现(emergence)+代理(agency)+功能可见性(affordence)+具象(embodiment)。
再说说这个“涌现”。大模型热到了沸点,何时迎来相变?涌现需要天时地利人和,数据集质和量是天时,大并发算力是地利,transformer选型是人和。能否涌现是有偶然性和运气成分的,撑大这个偶然性需要深度思考和反复试错,不能有投机心理。
以“transformer选型是人和”为例,笔者刚刚在“极简介绍大模型Transformer架构选型”一文中,阐释了为什么Transformer Encoder 很难涌现,而Decoder则相对容易。Decoder自回归(AR: Auto Regression)是在反复学习遣词造句,而Encoder自编码(AE:Auto Encoding)却是在反复学习完形填空。
一年前的这篇论文 《 What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 》https://arxiv.org/pdf/2204.05832.pdf,通过科学实验得出结论: decoder-only 自回归模型最快收敛并表现出最佳zero-shot 泛化能力。这可以佐证笔者这个判断。
不是说encoder不会涌现,只是可能事倍功半,它应该擅长事后任务,分类、舆情、摘要等等。笔者这是一家之言,大家批判式参考。这个解释,物理学不够,需要脑科学,可惜人类还没弄清楚自己。
最后,笔者觉得大家应该重视思想领导力(thought leadership )的价值,也就是陆总说的”未来唯一有价值的是你有多大见解“。1982年,J.J. Hopfield博士在《美国国家科学院院刊》上发表的一篇著名文章《神经网络与具有新兴集体计算能力的物理系统》,开头是这样说的:
鉴于神经元及其之间的电化学动力学性质(突触),我们很容易理解利用少数神经元获得基本生物行为的方案。我们对电子学中的这类简单电路的理解使我们能够规划更大、更复杂的电路,这对于大型计算机是必不可少的。由于进化没有这样的计划,因此我们需要问:大量神经元集合体执行“计算”任务的能力是否在一定程度上是拥有大量简单神经元相互作用的自发集体结果。在由大量简单元件构成的物理系统中,大量基本组件之间的相互作用会导致集体现象,例如磁性系统中的稳定磁性取向和磁区域,或流体流动中的涡旋模式。类似地,在简单相互作用的神经元系统中,是否存在有用的“计算”相关的集体现象?例如,记忆的稳定性、泛化的类别构建,或时序记忆是否也是自发集体性质?本文对这个古老而基本的问题进行了新的建模,并展示了重要的计算性质如何自发产生。
GPT类大模型的智能涌现,是一场规模浩大的实验,某种意义上是验证了J.J. Hopfield 博士四十年前的洞见。
作者:王庆法 麻省理工学院物理系学者,数据领域专家,首席数据官联盟专家组成员