SEO学习教程网—提供SEO视频教程、SEO顾问服务、SEO培训教程、网站SEO优化诊断方案。

【百度关键词推广】SEO如何快速整理维护挖掘关键词词库?

时间:2018-09-28 11:39:52 来源:SEO 作者:江西SEO曾庆平 点击量:

SEO人员在获取到大量关键词后,首先要对这些词进行处理,在实际工作中,百度关键词推广总结以下几个项目,做过或者觉得有必要做的事情:提取实体(通俗点讲就是找关键词中的重点词)、去重、受控词表、分类。

1、提取实体

提取实体的概念就是找关键词中的重点词。比如“北京温泉哪里好”,那这个词中的“北京”和“温泉”这两个词是重点,“哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手段,对关键词进行处理,把中间重要的关键词(实体)取出来。

先看看下面的关键词。

(1)处理前

北京博物馆大全 北京怀北滑雪场 杭州到北京动车 北京金山岭长城 北京旅行社排名 北京冬天去哪玩 西安到北京高铁 厦门到北京机票

(2)处理后

北京|博物馆 北京|怀北|滑雪场 杭州|北京|动车 北京|金山岭|长城 北京|温泉 北京|旅行社|排名 北京|冬天|玩 西安|北京|高铁 厦门|北京|机票

可以仔细观察一下两者的不同。这里算法有很多种实现方法,从SEO的角度出发,我们对精确度和召回率的要求,一般都比较低。从0%到80%要花费的心思,可能还没有从80%-100%要花费的心思多。并几不同行业会有略微不同的做法。于是百度关键词推广采取以下两个方法:

(1)根据词性删除停词符号(多删一些不要紧)。

(2)根据TF-IDF过滤高频词(什么是TF-IDF请自行脑补)。

说说分词算法,很多学术派研究了一大堆中文分词算法,但实际运用起来差别很小。推荐几个,根据自己会的语言使用。分词也是一门大学问,有兴趣可以网上看看CRF, HMM等模型的逻辑,这里就不展开讲了。
 

关键词词库

分词关键的问题是要速度快,并且可以自定义词库。由于我用的是JIEBA,这方面都能支持。分词后根据词性,排除掉“停词”,就获取到了我们想要的结果集合。过滤高频词。JIEBA可以对整个文本提取TF-IDF值高的词。这些词是核心,肯定不可去掉。

然后根据分词结果获取到TF-IDF值高的词,进行人工审核一下,以旅游行业词库为例,地名是经常出现的词,TF-IDF值可能会非常高,但是绝对不能去掉。所以我们需要先准备一份中国地名/景点名词库,可以在网上搜索一下,“懒人”可以直接用搜狗输入法的词库。

然后高频词中还有可能会出现的词,可能为“7月”、“8月”、“大全”、“线路”等。这些词也可以考虑从实体词中踢除。经过这几轮检查,基本就差不多了,再要精度可以再自行研究。肯定有人问,你折腾了这么久,有什么用?这里只能点到为止。

(1)内容关联

(2)自动tagging

(3)提高站内检索精度

从2016年到2017年搜房和安居客的SEO可以体会一下。

2、去重

提取实体后,就可以对关键词进行去重。

例如:海南旅游多少钱 海南旅游要多少钱

处理后:海南|旅游  海南|旅游

下面就可以进行去重了。上面这两个词,还可以通过实体相同的方法来解决。但是有一些关键词,比如“马尔代夫”和“马代”,“长城”和“八达岭”,用户是指一个地方,我们应该怎么处理这些词呢?就需要下面这个“受控词表”。

3、受控词表

受控词表是一种控制词汇含义并且跟踪其相关词的方法。回到上面的例子,你搜索“八达岭”的时候,如果不能把“长城”的内容展现出来,相信用户早就跑光了。受控词表主要有如下三大关系:等价、层级、关联

(1)等价很好理解,比如马尔代夫和马代是等价关系,这类词可以说就是一个意思,权值是最高的,在内容推荐中一定要呈现出来。

(2)层级有上下级之分,比如“夫子庙”是“南京景点大全”的下级词,“大成殿”又是“夫子庙”的下级词。在实际应用的时候,当用户在寻找“大成殿”时,网站可以告诉用户位于“夫子庙”中间,并且推荐夫子庙周围还有些什么好玩的东西,用户一定会非常喜欢。层级关系也是大部分网站都有的信息架构体系,从首页到目录,再到栏目。

(3)关联,有点类似于等价,但是并不完全相同,例如“三亚跟团游”、“海口自助游”、“海南旅游双飞”。它们没有明确的上下级关系,但是又不能说完全一样。这类词,我们可以把其作为有关联的东西记录下来。此外,一些内容的自带的属性,比如高、富、帅,可以作为一个相关联的关键词,在内容推荐上更加满足用户的口味。

还要提一点,在工作中,我们发现用户有时会用一些特殊的词汇来表达自己的需求,比如“麻袋”以谐音马代,或者“百撕不得骑姐”这样的输入法错拼,这些关键词都需要存放起来。

4、分类

对于获取到的大量关键词,应该怎么分类?首先可以按照意图进行分类,导航、信息、事务。这么做的好处是,可以快速知道把哪一类词分给哪条产品线做。例如信息类的词,尽量放到资讯、问答、产品库这样的频道。导航类的词,如果是自己品牌可以做,如果是竞争对手品牌,可以单独做频道。事务类的词,一般放在主力产品线上,页面上会有功能体现,比如“添加到购物车”、“下载链接”、“在线预定”等。在一定程度上满足用户的需求,避免内容错位。

除了上面的按意图分类法,下面讲讲结合信息架构中的分类方法。先介绍一个人工分拣关键词的方法:卡片分拣。通过尝试,这的确是一种可以集思广益的分类方法。我们从“马尔代夫”的关键词词库中抽取了500个关键词,随机分配给5个小组,每组把手头上的关键词进行自由分组,并且自行命名组名。然后再汇聚5个小组的组名,这样就确定了大约10个小分类,并且找到了一些之前单枪匹马没有想到的内容。
 

按意图分类法

有了分类,我们在网页结构组织上,可以更加有的放矢。在实际操作过程中,我们也有一定的筛选和层级控制考虑。例如货币、语言、气候,都可以归入介绍里面。关于这个页面我们也很少去做外部链接,内容也只是无数目的地中的一个,不可能有很多人力盯着这个栏目,但是专心做用户喜欢的内容,这个频道的表现还是相当不错的。

这时候如何构建内容,就非常清晰了,直接从词库中找关键词然后写内容就可以,总比成天写“马尔代夫报价”、“马尔代夫旅游报价”等无价值文章,做所谓的核心词表现要好很多。

我们只是分了500个关键词,词库中还有上万的待分类的关键词,随着时间的推移,新加入的关键词也会越来越多。可以使用机器学习的方法来做。曾庆平也还在研究学习中,写出来怕贻笑大方,抛砖引玉一下,使用决策树,根据已有卡片分拣的关键词作为训练文档,根据受控词表中的元数据包含与否作为特征,生成决策树,以便于进行自动分类。

百度关键词推广总结:

算法不是问题,关键是适合自己行业词库,至于词库怎么来,方法实在太多;词与词之间的关系是内容推荐,内容运营中的利器,同样也提升了用户体验,这里不得不吐槽一下,用户体验是需要技术的,不应只是喊喊口号。

本来想写兴趣点挖掘,后来一想词库中的每个词都是兴趣点,只要控制好词库的更新,兴趣点不是问题。有了思路,执行力也很重要。词库属于网站内容底层基础,做好这个,后面可以避免很多重复劳动和无用功。很多技术术名词解释,全凭自己学习理解,有错误请指正。
 

当前位置:SEO教程 > SEO培训 >

声明:本文由江西SEO和SEO教程网整理不代表个人观点,转载请注明原文,点击还能查看更多SEO培训的文章;本文网址: http://www.qingpingseo.com/seowenda/2016.html

围观: 1000次 | 责任编辑:江西SEO曾庆平

回到顶部