江西SEO优化—提供SEO顾问服务、网站SEO优化诊断方案(合作微信/QQ:707468216)

搜索引擎的索引基础:单词一文档矩阵

时间:2017-02-22 12:26 来源:未知 作者:江西SEO曾庆平

索引其实在日常生活中是很常见的,比如书籍的目录就是一种索引结构,目的是为了让人们能够更快地找到相关章节内容。再比如像hao123这种类型的导航网站本质上也是互联网页面中的索引结构,目的类似,也是为了让用户能够尽快找到有价值的分类网站。
 
在计算机科学领域,索引也是非常常用的数据结构。其根本目的是为了在具体应用中加快查找速度。比如在数据库中,在很多高效数据结构中,都会大量采用索引来提升系统效率。
 
具体到搜索引擎,索引更是其中最重要的核心技术之一,面对海量的网页内容,如何快速找到包含用户查询词的所有网页?倒排索引在其中扮演了关键的角色。本文章主要讲解与倒排索引相关的技术。
 
本文章通过引入简单实例,介绍与搜索引擎索引有关的一些基本概念,了解这些基本概念对于后续深入了解索引的工作机制非常重要。
 
单词一文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图中展示了其含义。图中的每列代表一个文档,每行代表一个单词,打对钩的位置代表包含关系。
 
单词一文档矩阵
 
从纵向即文档这个维度来看,每列代表文档包含了哪些单词,比如文档1包含了词汇1和词汇4,而不包含其他单词。从横向即单词这个维度来看,每行代表了哪些文档包含了某个单词。比如对于词汇1来说,文档1和文档4中出现过词汇1,而其他文档不包含词汇1。矩阵中其他的行列也可做此种解读。
 
搜索引擎的索引其实就是实现单词一文档矩阵的具体数据结构。可以有不同的方式来实现上述概念模型,比如倒排索引、签名文件、后缀树等方式。但是各项实验数据表明,倒排索引是单词到文档映射关系的最佳实现方式,所以本篇文章主要介绍倒排索引的技术细节。

 
版权所有。转载时必须以链接形式注明作者和原始出处。请大家尊重原创,珍惜别人的汗水!

声明:本文原创归江西SEOSEO所有,转载请注明原文网址: http://www.qingpingseo.com/zimeiti/292.html

围观: 1000次 | 责任编辑:江西SEO曾庆平

回到顶部