[科普中国]-英语，法语，德语，汉语，这些语言竟然都有个共同的祖先？-

作者：Lisa Grossman

编辑：Ashie

对于所有语言来说，词语排列中的信息总量都是相同的，即使这些语言之间毫无联系。这种一致性暗示着所有语言都有个共同的祖先，或者人类大脑在处理语言时存在普遍性。

“具体使用哪种语言无所谓。”英国曼彻斯特大学系统生物学家马塞洛•蒙特穆罗（Marcelo Montemurro）说， “即使是汉语、英语和苏美语这样复杂的语言，通过测量词语排列顺序也可以发现一些语言共有的特点。”

语言通过选择词汇和排列词汇来表达含义。有些语言，例如芬兰语，大部分含义都在单词以及前后缀本身，而词语的排列顺序基本是自由的。其它语言，例如英语，就比较严格——“李雷爱韩梅梅”与“韩梅梅爱李雷”的意义完全不同。

语言通过选择词汇和排列词汇来表达含义。图片来源：pixabay.com

蒙特穆罗意识到，通过计算文本中的“熵”（也就是表示词汇平均分布程度的量），他可以将词语顺序中所包含的信息量化。他和合作伙伴、阿根廷国家原子能委员会的戴米安•扎内特（Damián Zanette）利用信息学方法计算了来自八种语言的几千个文本的熵，包括英语、法语、德语、芬兰语、塔加路语、苏美语、古埃及语以及汉语。

之后，研究者将这些文本中的词汇随机重新排列。他们用到的文本包括莎士比亚全集、物种起源、以及苏美人的祈祷文。

“如果我们将所有词汇弄乱，破坏原来的文本，那么词汇还能完好地保存下来。”蒙特穆罗说，“我们所破坏的只是语言结构，也就是我们用来编码信息的方式。”

但奇怪的是，在最初有规律的文本与弄乱之后的文本之间，熵的差异无论在哪种语言中都是恒定的。蒙特穆罗认为，这种熵的差异可以用来衡量词语顺序所包含的信息。因此，当文本被弄乱之后，所失去的信息大约是每词3.5比特。

“我们发现了十分有趣的现象：所有语言这种熵的差值都是相同的。”他说，“出于某种原因，这些语言的词语排列方式都在这一框架中演化。”

蒙特穆罗认为，这种一致性也许反映了人类大脑的某种认知局限，或者它能让我们更深入地了解语言进化。

认知科学家仍旧在争辩，语言是否有普遍特性。一些开创性的语言学家提出，语言可以根据一系列规则演化，因此会产生相似的语法与结构特征。但上个月发表的一项有关几千种语言的句法与结构研究表明，并不存在这类规则。爱丁堡大学的语言学家肯尼•史密斯（Kenny Smith）认为，语言的普遍特征可能表现在更高级的组织结构上。

语言的普遍特征可能表现在更高级的组织结构上。图片来源： pixabay.com

“也许这些粗枝大叶的特征所影响的是语言中真正重要的方面。” 他说，“制造词汇并制定词汇排列的法则，才是语言中最基本的功能。而传统语言学家总是在错误的地方寻找语言的普遍特征，他们所研究的并不是语言的最基础部分。”

排版：昕旸