江西SEO优化—提供SEO顾问服务、网站SEO优化诊断方案(合作微信/QQ:707468216)

怎样分析和读取网站日志文件?

时间:2016-12-14 11:28 来源:未知 作者:江西SEO曾庆平

大部分情况下,流量分析要借助于流量分析软件,但直接读网站日志还是站长及SEO的基本功之一。
 
怎样读日志文件?
 
网站服务器会把每一个访问信息、每一个服务器动作、每一个文件调用自动记录下来,存在服务器原始日志文件中。所以,日志中的信息是相对准确、全面的。有些SEO需要知道的信息在流量分析软件中很少支持,必须直接查看日志如服务器返回的状态码。
 
通过日志分析我们可以了解到蜘蛛返回的状态码是什么,从而能及时发现网站里面有哪些错误或者哪些蜘蛛无法爬取的页面,这样我们能更好的分析网站的优化情况。
 
原始日志就是一个纯文本文件,只要用文字编辑软件如WordPad或Notepad打开就可以。一般主机商会在控制面板提供日志文件下载。
 
第一步:在哪看网站日志文件
 
1.虚拟主机查看
 
这个一般是在网站根目录下有个og或者logfile文件夹(不一定是这个名字,有些服务商命名有不同的),看到这个文件夹后打开,里边有个后缀名是.log的文件,下载下来保存为文本格式,这个就是日志文件。
 
2.服务器(iis)
 
一般装了iis的服务器日志是默认放在C:\WINDOWS\system32\LogFiles\(当然也有个别情况不是放在这里),里边还是一样,是一个后缀名.log的文件
 
第二步:怎么读日志文件?
 
上面已经告诉大家在哪可以看到日志文件了,下面是从我的博客(yongfengseo.com)之前的日志文件中随机选取的一行,我们来看一下它包括哪些信息:
 
比如:2014-02-24  16:00:01 GET /index.asp - - 66.249.67.41 HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) - 200 71879
 
2014-02-24  16:00:01 代表日志被访问的时间。这是文件被访问的准确时间。和IP地址结合起来,查看多条日志记录就可以跟踪某一个特定的用户从一个网页到另一个网页的访问顺序和在网站上的活动。
 
GET 这个讲的是抓取动作,我记得还有个动作是POST,GET /index.asp - - 66.249.67.41 HTTP/1.1这段的意思主要是讲按HTTP/1.1协议获取了index.asp 文件,访问的ip地址是66.249.67.41。
 
66.249.67.41代表是IP地址,是访问的ip地址。这是访问用户所在的IP地址,显示出访问的人来自什么地理位置。在IP地址信息服务查一下这个IP所属位置,可以看到这位访客来自美国。如图:
 
IP地址
 
Mozilla/5.0是指火狐浏览器。
 
(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 代表是谷歌蜘蛛来抓取的。
 
200 是服务器状态码,表示正常成功获取了文件。服务器返回的状态码。200指成功获取了文件,一切正常。如果返回404,就是文件不存在/没有找到。其他常见状态码包括:
 
301—永久转向。
 
302—暂时转向。
 
304—文件未改变,客户端缓冲版本还可以继续使用。
 
400—非法请求。
 
401—访问被拒绝,需要用户名、密码。
 
403—禁止访问。
 
500—服务器内部错误,通常是程序有问题。
 
503—服务器没有应答,如负载过大等。
 
71879是文件大小,说明指的是所获取文件的大小,index.asp文件是71879字节。
 
比如我们再看下面这段日志的例子如图:
 
网站日志
 
来路:"http://www.baidu.com/s?wd=seo"
 
显示访问者是从哪里来到当前网页,也就是来到这个网页之前访问的那个网页URL。来路可能是同一个网站的其他页(用户通过点击网站内部链接浏览),有可能是其他网站(用户通过其他网站上的链接点击过来),也有可能是搜索引擎的结果页面,如上面所示的例子。
 
来路是搜索引擎结果页面时,URL中含有一个对SEO意义重大的信息,就是用户搜索的关键词。例子里的来路是百度搜索,搜索关键词是“seo"。
 
如果用户使用的是其他类型计算机或浏览器,在这一段还可能看到这类代码:
 
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)—傲游浏览器。
 
Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1—火狐浏览器。
 
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.127 Safari/533.4— Google 的Chrome浏览器。
 
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV 1;)—微软IE6浏览器。
 
日志是网站访问的最真实记录。分析用户访问时还可以借助下面介绍的GA等流量分析工具,但检查某些问题,如访问错误、蜘蛛爬行情况等,非依靠原始日志不可。大中型网站日志文件可能很大,完整人工查看是不可能的,SEO部门可以开发专用日志分析工具,主要统计各种访问错误和蜘蛛爬行、抓取数据。
 
作者:江西SEO曾庆平
 
版权所有。转载时必须以链接形式注明作者和原始出处。请大家尊重原创,珍惜别人的汗水!
 

声明:本文原创归江西SEO所有,转载请注明原文网址: http://www.qingpingseo.com/seozixun/227.html

围观: 1000次 | 责任编辑:江西SEO曾庆平

回到顶部