为了更好的分析得到的PV量, 使自己由日志文件得到的PV量更接近Google
由日志中统计出的PV量要排除掉如下一些:
- 1. 搜索引擎爬虫过来的
搜索引擎,爬虫这些访问不是用户行为,应该排除
处理方法: 一般有异常IP地址的访问量和UA信息的判断获得,排除这些因素的PV量
- 2. 中间跳转页面
中间跳转页面,对用户来说只能看到跳转后的页面信息,之前发起跳转的页面对用户不可见,应该排除
处理方法: 找出设计中存在的跳转页面,排除跳转前的页面或跳转后的页面所汇集的PV量。
最好在业务设计和程序设计时做考虑处理,减少中间页面跳转这类的处理。
- 3. 页面中内嵌的页面
这类是使用Frame或Div等形式,嵌在一个页面中的一小块信息,
处理方法:找出这类地址,对其做访问量排除
- 4. Ajax数据交换使用过的接口页面
这类地址一般用户看不到,应该排除,
处理方法:找出这类的地址,然后在统计量中排除对这些地址的访问,最好在程序设计上将其放到一个目录下,这样可以直接排除对某个目录的访问。
- 5. 内部数据接口交互使用的PV
这个不是针对用户的,也应该排除
处理方法:找出这类的地址,然后在统计量中排除对这些地址的访问,最好在程序设计上将其放到一个目录下,这样可以直接排除对某个目录的访问。
注意点: 以上排除项对一些地址会有重复,比如既是搜索引擎的访问,又是内嵌的小页面地址,这样在处理时要注意,以防造成PV量的重复剔除