江西SEO优化—提供SEO优化技术、SEO顾问服务、SEO培训教程、网站SEO优化诊断方案。

搜索引擎的原理:下载系统

时间:2017-09-01 18:06 来源:未知 作者:江西SEO曾庆平 点击量:

前面我们说了搜索引擎的系统主要包括下载、网页分析、建立索引、查询服务四大系统。下载系统主要负责收集网页,将网站的所有网页采集回来,放到一个所谓的“仓库”中,通过网页分析系统将网页分类,将重复网页、垃圾网页过滤掉,然后将剩下的有价值的网页编成目录建立索引,等待用户查询,只要有用户查询某一个关键词,搜索引擎就可以用最短的时间将其呈现给用户。
 
1、下载系统
 
搜索引擎的下载系统采用多线程方式工作,每一个线程就是我们经常提到的蜘蛛。如果下载系统中只有一只蜘蛛工作,想要抓取互联网上的全部网页是不可能的。依目前情况来看,多线程都不能完全抓取互联网上的所有网页。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页,那么要确保不重复抓取,同时提高速度和效率,搜索引擎是怎么做到的呢?
 
搜索引擎在下载网页的时候,会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。因为很多网站都会做外部链接,这样就有可能很多网页都指向了一个网站,而搜索引擎蜘蛛是顺着链接来抓取网页的,蜘蛛会从很多外部链接页面重复抓取一个网站,这样会造成大量的重复工作,降低工作效率。而建立这张表后,就完全地解决这个问题,提高了工作效率。
 
下载系统
 
当蜘蛛抓取某个外部链接页面的URL的时候,它会把这个URL下载回来分析,当蜘蛛全部分析完这个URL后,会将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或者其他页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,这个URL蜘蛛会自动丢弃,不需要再访问,尽量做到一个页面只访问一次,从而提高了搜索引擎的工作效率。
 
搜索引擎收集信息类型为html、pdf、doc等格式的页面,这些格式都可以通过一些工具非常简单、快速地转化为文本。其实我们可以在百度中输入文档进行搜索,也可以搜索指定类型的文档,例如,pdf、doc。我们可以利用pdf、doc来做一些优化上的处理,效果也是比较好的。
 
搜索引擎不是说互联网上所有的网页都会抓取过来,因为互联网上的网页实在太多了,不可能全部抓取过来。这方面,Google可能会比百度好一点儿,百度会处理一些数据,数据量越大效率自然会降低,所以它会选择重要的网页来优先抓取。
 
最后总结一下,一个稳定和高效的下载系统是搜索引擎提供服务的根基,搜索引擎能否做到很高的时效性,取决于下载系统策略和下载系统的性能。这对于商业搜索引擎来说是非常重要的,就好比你搜索当天的新闻,如果你在Google上能搜索到而在百度上搜索不到,相信很多人会使用Google而不会使用百度,所以时效性对一个搜索引擎来说是非常重要的。如果要在这方面做得特别强,那么一定需要一个高效的下载系统。
 

声明:本文由江西SEOSEO整理不代表个人观点,转载请注明原文,点击还能查看更多SEO教程SEO培训的文章;本文网址: http://www.qingpingseo.com/jiaocheng/526.html

围观: 1000次 | 责任编辑:江西SEO曾庆平

回到顶部