“万能”的搜索引擎

新华网 2017-07-30 作者：吕芮光

　　每当我们需要查什么资料或者新闻的时候，都会打开搜索引擎，输入词组就可以直接搜出自己想要的内容。搜索引擎不但能搜索出海量内容，而且搜索速度很快。它到底是怎么工作的呢？这就要从两个方面单独来分析，一方面是为什么搜索引擎的速度这么快，另一个方面就是搜索引擎是怎么搜到这么多海量资源的。

　　书籍自古以来都是人类进步和文明的重要标志之一，因为书籍可以不受时间、空间的限制，流传和保存信息。在没有网络以前，书籍是我们获取信息的主要工具。随着网络的普及，我们越来越多地通过网络搜索信息，网络成了获取信息的主要渠道。截止到2012年4月，互联网上被收录的网页已有五百多亿个。如果按照一本书有500页来估算，这就相当于一亿册图书的信息量。

　　当我们在网上搜索一个词语时，搜索引擎会快速给我们展示结果。例如，我们在百度上搜索鸡蛋一次，百度搜索结果有几千万个。搜索引擎的服务器是怎么工作的？为什么能在一瞬间搜索出这么多结果？搜索引擎是逐个打开检索的网页吗？就算搜索引擎的服务器1秒钟能够打开并检索1万个网页，这五百亿的网页就需要检索将近两个月。我们为了得到一个信息居然要等两个月，这显然不是搜索引擎服务器的工作方式。

　　服务器能够快速得出结果，是因为它利用了“关键词索引”。服务器会将所有网页扫描一遍，然后为网页中的每个词语都建立一个跟这个词语有关的关键词索引。如果一个词组在这个网页中多次出现，那就建立同一个关键字的多个索引，这就形成了关键字索引表。这个关键字索引表可以查到包含这个关键字的网页和位置。因为词组数量有限，其数目要远远小于网页数量。只要找到关键字的索引表之后，搜索引擎就能将对应的网页内容显示出来。

　　人们越来越依赖网络，所以就把越来越多的内容放在互联网上。据估计，互联网上有数万亿的独立Web页面，人们利用搜索引擎从互联网上获取信息内容。我们知道了搜索引擎利用关键字索引表，而关键字索引表又是用关键字索引建立的，关键字索引则是服务器扫描网页时检索出关键字设立的。那么搜索引擎是怎么自动完成这些工作的？

　　搜索引擎的工作一般分三步完成：

　　一、信息抓取。搜索引擎用被称为“网络爬虫”的程序来抓取网页上的所有链接。因为互联网上的网页存在互通性，大多数网页都可以通过其他页面的链接访问，网络爬虫就通过一个点爬遍大多数互联网网页。

　　二、建立索引。搜索引擎从网页页面中提取关键字，并把整个页面信息内容按照一定的规则保存到自己的数据库里。

　　三、结果显示。因为服务器早已经建立好了关键字索引，并把信息保存到了自己的数据库，所以当我们搜索某个词组时，服务器只需要检索自己的数据库就可以了。

　　万能的搜索引擎像一个优秀的魔术师，让苦于解开某个难题的我们瞬间找到了解锁答案的钥匙。相信随着科技的进步，搜索引擎能为我们提供更为便捷的信息检索。

　　本作品为“科普中国-科学原理一点通”原创转载时务请注明出处