经过各种搜索及自己的试验,决定后面做防采集通过混用以下方法来解决,当然采集是无法完全防止的,只能是尽量减少。
基本方法如下:
-
首先简单限制右键、复制等手工获取方法
-
referer,内容gzip/deflate压缩等常用方法
-
内容混淆,加入随机 截断,加入背景色随机版权文字
-
需要防采集的内容:随机token+AJAX获取动态加密后的内容,然后使用JS解密
-
较特殊的方法,乱序输出HTML标签及内容,通过JS进行正常排除并输出,实际上可以合并到上一点
-
由于采集一般不采集JS,图片等内容,因此使用JS或图片记录IP,与页面IP进行时间差比对等处理。
-
数据分析出采集IP动态封锁,当然也可手工封IP
混用以上功能,一般采集的人就烦死了,估计也不会继续采集。
对搜索引擎的影响,可以通过关键字、简介等方式尽量降低,主要取决于你对防采集与搜索引擎的权衡。
各位觉得有什么更好的方法的可以讨论下~