版权归原作者所有,如有侵权,请联系我们

[科普中国]-齐夫定律

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。

简介齐夫定律(英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。1

理论这个“定律”是哈佛大学的语言学家GeorgeKingsley Zipf1949年发表的。比如,在 Brown 语料库中,“the”是最常见的单词,它在这个语料库中出现了大约7%(100万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5%(36411次),之后的是“and”(28852次)。仅仅135个字汇就占了Brown语料库的一半。齐夫定律是一个实验定律,而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标为log(排名)和log(频率)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。

应用巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐夫定律(Zipf's law)进行了严格的研究。他们使用了古登堡计划(the Project Gutenberg)的数据库——古登堡计划是一项将版权过期的英语书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未有,此前的研究大多只采用几十篇文本的数据集。分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完全地符合齐夫定律,而如果考虑所有的词语,仍然有40%的文本完全符合齐夫定律。该研究的负责人科拉尔(Á.Corral)称,如果进一步忽略只出现3至5次的词语,符合齐夫定律的文本数还会更多。

前不久,江南大学的研究者以诺贝尔文学奖得主莫言的《红高粱》《蛙》和《透明的红萝卜》为主要研究对象,采用字频统计软件和汉语词频统计软件,统计莫言作品中字频、词频,发现都能满足齐夫定律。所得结果与包括英语、西班牙语、法语等在内的多种语言研究结果一致。这项研究从统计学角度提供了莫言可以成为中国大陆首位诺贝尔文学奖得主的可能原因之一。

齐夫定律已经在语言学、情报学、地理学、经济学、信息科学等领域有了广泛的应用,而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出:齐夫定律是描述词频分布规律的强大数学工具;作为经验定律,它仍有不足之处,有待进一步完善。

例子最简单的齐夫定律的例子是“1/ffunction”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在Brown语料库中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

遵循该定律的现象单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章

网页访问频率

城市人口

收入前3%的人的收入

地震震级

固体破碎时的碎片大小

参见经验公式

词频效应

本词条内容贡献者为:

黄伦先 - 副教授 - 西南大学