作者:Lisa Grossman
编辑:Ashie
对于所有语言来说,词语排列中的信息总量都是相同的,即使这些语言之间毫无联系。这种一致性暗示着所有语言都有个共同的祖先,或者人类大脑在处理语言时存在普遍性。
“具体使用哪种语言无所谓。”英国曼彻斯特大学系统生物学家马塞洛•蒙特穆罗(Marcelo Montemurro)说, “即使是汉语、英语和苏美语这样复杂的语言, 通过测量词语排列顺序也可以发现一些语言共有的特点 。”
语言通过选择词汇和排列词汇来表达含义。有些语言,例如芬兰语,大部分含义都在单词以及前后缀本身,而词语的排列顺序基本是自由的。其它语言,例如英语,就比较严格——“李雷爱韩梅梅”与“韩梅梅爱李雷”的意义完全不同。
语言通过选择词汇和排列词汇来表达含义。 图片来源:pixabay.com
蒙特穆罗意识到, 通过计算文本中的“熵”(也就是表示词汇平均分布程度的量),他可以将词语顺序中所包含的信息量化。 他和合作伙伴、阿根廷国家原子能委员会的戴米安•扎内特(Damián Zanette)利用信息学方法计算了来自八种语言的几千个文本的熵,包括英语、法语、德语、芬兰语、塔加路语、苏美语、古埃及语以及汉语。
之后,研究者将这些文本中的词汇随机重新排列。他们用到的文本包括莎士比亚全集、物种起源、以及苏美人的祈祷文。
“如果我们将所有词汇弄乱,破坏原来的文本,那么词汇还能完好地保存下来。”蒙特穆罗说,“我们所破坏的只是语言结构,也就是我们用来编码信息的方式。”
但奇怪的是,在最初有规律的文本与弄乱之后的文本之间, 熵的差异无论在哪种语言中都是恒定的。 蒙特穆罗认为,这种熵的差异可以用来衡量词语顺序所包含的信息。因此,当文本被弄乱之后,所失去的信息大约是每词3.5比特。
“我们发现了十分有趣的现象:所有语言这种熵的差值都是相同的。”他说,“出于某种原因,这些语言的词语排列方式都在这一框架中演化。”
蒙特穆罗认为,这种一致性也许反映了人类大脑的某种认知局限,或者它能让我们更深入地了解语言进化。
认知科学家仍旧在争辩,语言是否有普遍特性。一些开创性的语言学家提出,语言可以根据一系列规则演化,因此会产生相似的语法与结构特征。但上个月发表的一项有关几千种语言的句法与结构研究表明,并不存在这类规则。爱丁堡大学的语言学家肯尼•史密斯(Kenny Smith)认为,语言的普遍特征可能表现在更高级的组织结构上。
语言的普遍特征可能表现在更高级的组织结构上。图片来源: pixabay.com
“也许这些粗枝大叶的特征所影响的是语言中真正重要的方面。” 他说,“制造词汇并制定词汇排列的法则,才是语言中最基本的功能。而传统语言学家总是在错误的地方寻找语言的普遍特征,他们所研究的并不是语言的最基础部分。”
排版:昕旸