GPT4技术原理一:学习语言需要相变
作为“系列文章深度解析ChatGPT获得智能的数学物理机理“ 开篇:”学习语言需要相变“,笔者决定从女儿最近的一篇习作谈起,习作是一篇读后感:
敦行故远 —— 读《莫高窟》有感
敦行曰华,煌焜曰夏。
从公元三六六年的第一个石窟开始,经历了一千六百多年,见证了沧桑巨变。它连通东西的血脉,打破时空的格局,穿越千年的历史,沉淀岁月的文明。时间与空间,东方与西方,都凝汇在这里,莫高窟,圣洁的地方。
从小喜欢莫高窟,认为它意义非凡。读了《莫高窟》之后,便更是对它留下不可磨的印象。历史上的人们也和我一样,惦念着它,热爱着它。自从第一个洞窟开工以来,远近佛教信士就纷纷来朝拜圣景。年长日久,新的洞窟也一一挖出,上至王公,下至平民,或者独筑,或者合资,全向山坡凿进,从此工匠斧凿的叮当声,成了这个山峦的历史。
皆是出于信仰。
渐渐地,这一切都与中华历史接通了血脉。一幅幅的壁画完成了,一座座的佛像立起来了,西域文明开始了。莫高窟的确有层次丰富的底蕴,彰显了岁月最绚烂的色彩。看那些不一的佛像和壁画,色泽浓厚得如同立体,笔触奔放得如同剑戟。流动、快捷、颠簸,一切都在飞奔,一切都在旋转,是只属于莫高窟的豪放与疯狂。通过《莫高窟》我懂得了,莫高窟不仅仅是一个供人欣赏的景点,也是虔诚的信仰,千年的文明,西域文化的遗留。
《文化苦旅》中有一句话:“看莫高窟,不是看死了一个千年的标本,而是看活了一千年的生命。”是啊。
透过唐宋元明清千年不朽的文物,能窥见一方天地,看看塞北大漠的烟尘浩荡,听听楼兰古国的烈酒离歌。茫茫大漠,滔滔流水,于世无奇。唯有大漠中如此一湾,风沙中如此一静,荒凉中如此一景,高坡后如此一跌,才深得天地之韵律,造化之机巧,让人神醉情驰。以此推衍,人生、世界、历史,莫不如此。给浮嚣以宁静,给急躁以清冽,给高蹈以平实,给粗犷以明丽,唯其这样,人生才见灵动,世界才显精致,历史才有风韵。莫高窟,生生不息,吐纳百代的历史胜迹,一个民族波澜壮阔的文明。这个沙漠深处的陡坡,因华美而矜持,因富有而远藏。莫高窟,深深地吸纳了无量的才情,沉淀了深邃的历史,变得神秘又安详。
敦,大也;煌,盛也。敦行故远。
陪伴女儿成长,从她呀呀学语,到认识第一个汉字,到去动物园不看动物看路牌上的字,到顺畅的互动沟通,再到小学四年级开始不断出现的范文作文,然后就是现在初一年级这样的文字。我试图观察和发现人类幼崽学习的奥秘,却没有成功。
很多学者认同人类的学习是小样本学习,不同于机器学习需要海量的数据。其实如果亲自仔细观察过娃娃们学习的过程,或许会发现这个认知是粗浅的。孩子们的学习是一个多模态立体的认知过程:尝、嗅、触摸、听、看,都在从不同的侧面获取信息,因而孩子们获取的是多模态多方位相互关联的连续的样本,大还是小呢?
样本本身的大小通常是按照采样点的数量来衡量的,多少固然重要,但样本本身蕴含的信息是否足够丰富才是决定认知的关键。孩子们从立体的连续的多方位的信息中,不断提取所需的特征信息,只要这些特征信息足够丰富,丰富到可以表征所要认知的事物的客观属性,学习就是成功的,反之即是失败。
笔者在“站在香农与玻尔兹曼肩上,看深度学习的术与道”一文中,曾总结自己的顿悟:“事物由不同层次的随机变量展现出来的信息来表达,不同层次上的随机变量携带不同的信息,共同组合影响上一层的随机变量的信息表达,而随机变量对外表达的信息则取决于该随机变量的条件概率分布”。娃娃们学习过程似乎应该是,从周围多方位立体的连续的信息中,提取特征,辨识潜变量,形成参数概率分布,记忆,模仿,推演。这一过程不断迭代,一开始是父母耐心校准的有监督学习,到达一定程度后转为无监督学习,而在某个时点逐步完成认知的飞跃 “可以讲出以前从未听过的句子”。
无奈人类学习认知的过程太复杂了,学界并没有弄清楚这一过程。“讲出以前从未听过的句子”是人类学习过程中的相变吗?我们来看2019年来自Philip Ball在physics.aps.org的一篇报道:
语言学中一个长期存在的难题是,儿童如何学习他们的语言的基本语法结构,从而能够创造出他们以前从未听过的句子。一项新的研究表明,这个过程涉及一种相变,即当语法规则被学习者直觉地理解时,一种语言的“深层结构”会突然结晶出来。在这个相变点,一种语言从看起来像是随机的单词混合体转变为一个高度结构化的、富含信息的通信系统。
麻省理工学院的美国语言学家诺姆·乔姆斯基曾经著名地提出人类天生具有语法的普遍结构规则的先天知识。这个想法受到了强烈的批评,但这些规则是如何被理解的仍然是个谜。
在所有人类语言中,单词之间的关系和它们组合的语法规则形成了一种类似树状的网络。例如,一个句子可以被细分为一个名词短语和一个动词短语,而每个短语又可以被分解成更小的单词组合。这些细分都表示为树型图中的一个分支点。这个树的“叶子”是最终的节点,即实际的单词:泛化类别的具体实例,如“名词”、“动词”、“代词”等。这种语法最简单的类型被称为无上下文文法(CFG),几乎所有人类语言都具备这种类型的语法。
巴黎高等师范学校(École Normale Supérieure)的物理学家Eric DeGiuli认为,CFG可以被视为物理对象,其“表面”包括所有可能的单词排列方式,包括原则上无意义的句子。他的想法是,当儿童接触到树的“表面”(他们听到的句子)时,他们本能地推断出“深层”的语法规则。他表示,学习使一些句子成立但其他句子不成立的规则相当于孩子分配分支的权重,并不断根据他听到的语言调整这些权重。最终,导致不合语法的句子的分支获得非常小的权重,这些句子会被识别为不太可能的。DeGiuli表示,这些许多单词组合就像统计力学中的微观态-一个系统的组成粒子的所有可能的排列方式。
在所有节点的权重都相等的CFG中,所有可能的句子同等可能,语言与随机单词组合无异,没有意义的信息。问题是,在所有可能的CFG中,什么样的权重分布区分产生随机单词句子和产生信息丰富句子的CFG?
DeGiuli的理论分析——使用统计力学技术——显示出两个关键因素:权重如何“剪枝”层次树的深处,以及在表面(具体的句子出现的地方)如何剪枝。在这两种情况下,这种分支的稀疏性扮演了类似于统计力学中温度的角色。在表面和内部降低温度都意味着降低更多的权重。
当降低深度温度时,意思是内部树变得更稀疏,DeGiuli看到CFG从随机和杂乱无序的CFG突然转变为具有高信息量的CFG。这种转变类似于水的结冰过程。他认为,这种转变可能解释了为什么在发展的某个阶段,孩子学习如何快速构造语法正确的句子。
此时,单词不再是单纯的标签,而是具有复杂结构和含义的句子的成分。这种转变不依赖于获得所有正确的权重;孩子们会继续完善他们对语言的理解。DeGiuli的理论中使用的归纳和概率推理与儿童语言习得中观察到的一致。
DeGiuli希望这种抽象过程最终能与神经水平的观察相联系。或许研究人员可以了解什么可能会阻止有学习障碍的孩子转换到丰富的语言。
英国爱丁堡大学的统计物理学家 Richard Blythe 表示:“关于孩子如何从一系列例子中提取语法的问题在广泛讨论,而这篇论文提出了一种可能的机制。我认为这是一个非常有趣的想法,并且理论上它可以做出定量预测,所以它有可能被测试。”
统计力学真的会改变一个人的世界观。笔者不知道是该庆幸还是懊悔,在研究生时候系统学习了这门学问。从此陷进去不可自拔,什么事情都希望探究一下其背后运转的机理,什么事情都希望看到从微观到宏观的转换。看起来DeGiuli教授也是中了招,期望通过统计力学以及相变的理论去描述和刻画语言学习。不过这的确是一个新颖的角度,在笔者看来,已经可以在GPT 这类语言模型的成功中,捕捉到这个理论解释隐约的影子。
在“ChatGPT是第一个真正意义的人工通用智能”中,笔者提到“在大语言模型领域,模型规模跨越某个阈值,处理任务能力突然性增长,被称为涌现能力(Emergent Ability)。只要针对某个特定问题或任务的相关领域,模型“足够”大,注入足够的信息量,相变就可能发生,即开始涌现。”这像极了人类幼崽语言关键期后的爆发,这些大模型真的能够“讲出以前从未听过的句子”,而这些句子在上下文中合乎情理。不管人们认不认同GPT已经获得了智能,已经再也没有人称他们”人工智障“了。有些冷门知识他们回答不好,或许可以解释为:这一领域的样本量不足以实现相变。
下篇我们深入了解一下这个”相变“。
作者:王庆法 麻省理工学院物理系学者,数据领域专家,首席数据官联盟专家组成员