江西SEO优化—提供SEO顾问服务、网站SEO优化诊断方案(合作微信/QQ:707468216)

搜索引擎技术:排序算法

时间:2017-09-04 10:31 来源:未知 作者:江西SEO曾庆平

排序算法是对蜘蛛抓取到的页面进行排序的算法。理论上,我们可以根据任意的规则对搜索结果进行排序,比如按照时间排序、按照访问量排序等,然而在Google使用的排序算法问世后,上述的排序方式都被证明并不适合于互联网。
 
Google是到目前为止最流行的一个通用搜索引擎,最初只是两个斯坦福大学学生的研究项目,Sergey Brin和Larry Page希望让绝大部分使用搜索引擎的人都能在搜索结果的第一页找到他想要的结果。为了达到这个目的,他们发明了开创时代的PageRank(据说名字来源于Larry Page)排序算法,并将此发表在论文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中,之后的实践证明,PageRank对搜索结果的排序优于其他排序算法。
 
PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B引用了A,如果在C、D、E、F中都链接了A,则说明A网页重要,A网页的PageRank值也就高。
 
计算PageRank值有一个简单的公式:
 
其中系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。
 
由以上公式可以看出如下三点。
 
链接指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大,A的级别越高。
 
链接指向A的网页,其网页级别越高,A的级别也越高。即A的级别和指向A的网页的级别成正比,在公式中表示,网页N级别越高, A的级别也越高。
 
链接指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页的链出个数成反比,在公式中表示,网页N链出个数越多,A的级别越低。
 
通俗地讲,从网页A导向网页B的链接,可以看做是页面A对页面B的支持投票,Google根据这个投票数来判断页面的重要性,但Google 除了看投票数(链接数)以外,对投票者(链接的页面)也进行分析。重要性高的页面所投的票的评价会更高,比如新浪、搜狐、微软的首页都有某网页的链接,可能比其在另外网站取得30个链接还要有效。
 
通过上面公式,可以形成一个巨大的方程组,对这个方程组求解,就能得到每个网页的PageRank值。当然互联网上有数百亿个网页,那么这个方程组就有数百亿个未知数,方程虽然是有解,但计算非常复杂。
 
Google
 
每个网页都有PageRank值,下载Google的免费工具栏(下载地址:http://toolbar.google.com)
 
每打开一个网页都可以很清楚地看见其PageRank值(当然这个值是一个大概数字)。
 
国内的百度是全球最重要的中文搜索引擎之一,其创始人李彦宏在1996年申请了名为“超链分析”的专利,“超链分析”的原理和PageRank的原理类似。所以在搜索引擎的算法上,两种搜索引擎的主体很相近。
 
除了用PageRank衡量网页的重要程度以外,还有上百种因素参与排序。现在常用的算法有如下3种。
 
(1)HillTop算法。HillTop是搜索引擎结果排序算法,由 Google的工程师Bharat在2001年提出并获得专利。Google自诞生之日起,其排序规则就经常变化,但变化最大的一次就是基于HillTop算法进行的改进。
 
HillTop算法的指导思想和PageRank是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍服装的,有10个链接都是从“服装”相关的网站链接过来,则这10个链接比另外10个从“电器”相关网站链接过来的贡献大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页的重要性。
 
PageRank与HillTop算法结合后,在排序过程中就能更好地体现文档与搜索关键词之间的匹配程度。在两个具有同样主题且PR相近的网页排序过程中,HillTop算法显得非常重要。HillTop同时也避免了许多想通过增加无效链接来提高网页PageRank值的作弊方法。
 
(2)锚文本。锚文本就是链接文本。锚文本可以作为其所在页面内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定关系。如服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接。另一方面,锚文本能作为所指向页面的评估。锚文本能精确地描述所指向页面的内容,如个人网站上增加Google的链接,则锚文本显示为“搜索引擎”。这样通过锚文本本身就能知道,Google是搜索引擎。
 
由此可见,在网页中选择合适的锚文本,则可让所在网页和所指向网页的重要程度有所提升。
 
(3)页面版式。每个网页都有版式,包括标题、字体、标签等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通过蜘蛛把网页抓取下来后,需要提取里面的正文内容,过滤其他HTML代码。在提取内容时,搜索引擎就可以记录所有版式信息,包括:哪些词在标题中出现,哪些词在正文中出现,哪些词的字体比其他的字体大,哪些词加粗过,哪些词用KeyWord标识过的等。这样在搜索过程中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。
 
对于排序算法的真正实现细节,Google等搜索引擎不会透露,但是我们能掌握一些原则。Matt Cutts是一位Google的雇员,他在其博客上说“SEO工作中最明智的选择就是从下面这个问题得来的:对用户最有用的是什么?”而Danny Sullivan,这位当今搜索领域非常知名的权威人士,在回答“如何考虑 SEO的真谛”这个问题时表示“好的HTML标题、优秀的页面正文、高价值的内容,同时还要确保蜘蛛能够顺利访问网站,这些准则已经发挥了将近二十年的作用”。
 

声明:本文原创归江西SEOSEO所有,转载请注明原文网址: http://www.qingpingseo.com/jiaocheng/530.html

围观: 1000次 | 责任编辑:江西SEO曾庆平

回到顶部