爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。
一:seo:Search Engine Optimization分成白帽seo以及黑帽seo。白帽seo才是正规军,黑帽seo放大搜索引擎缺陷,进行欺骗。
白帽seo:1网站标题关键字,描述,2.网站内容优化,3.Robot.txt文件,4.网站地图,5.增加外链接引用,6.网站结构布局优化,7.网站代码优化
二:nofollow(不进行相关检索)的两种用法:
1.<meta name = "robot" content = "nofollow"/>告诉爬虫该页面上的所有链接都无需追踪。
2.<a href = "login.aspx" rel = "nofollow">登录</a>告诉爬虫该页面无需追踪。
三:常见的优化小规则:
1.使用扁平化布局,超过三层以上的标签爬虫爬起来较为吃力,布局简单为好.
2.连接数量控制在一定范围,不能太多也不宜过少,多使用内部链接,减少外部链接,单个页面内容最好不要超过100K.
3.采用面包屑导航,方便用户了解所在位置以及网站的组织形式.
4.采用语义化标签strong em比b i 的语义更强一些
5.重要内容不要使用js输出
6.尽量不使用iframe,爬虫取不到iframe内的内容
7.慎用display:none,尽管隐藏还是存在
8.重要内容的html放到前面(先放主要内容再放广告栏)
9.img标签应全部使用alt标签
10.才用下拉式分页导航