Python2.7-robotparser

robotparser 模块，用于解析网站的 robots.txt 文件，robots.txt 文件是用于指定搜索引擎爬虫的访问权限的，此模块在 python3 中重命名为 urllib.robotparser。------------------好像自己写爬虫并不会去考虑这个文件

1、模块对象

1.1 RobotFileParser 对象

1.1.1 初始化构建类：RobotFileParser(url='')，读取解析网站的 robots.txt 文件

参数设置：
url：设置目标网站

1.1.2 实例方法

set_url(url)：设置 url 指向网站的 robots.txt 文件
read()：读取网站的 robots.txt 文件，并将其传入解析器
parse(lines)：解析 lines 里的信息
can_fetch(useragent, url)：判断指定 useragent 能否访问指定 url
mtime()：返回 robots.txt 文件最后一次获取时间
modified()：将 robots.txt 文件最后获取时间改为当前时间

---------------- 坚持每天学习一点点

相关阅读:
Python类属性的延迟计算
解析Python编程中的包结构
解析Python编程中的包结构
Python查询Mysql时返回字典结构的代码
VS2010中如何查看DLL的导出接口
C++ 简单的日志类
ilmerge工具合并多个DLL或EXE
基于InstallShield2013LimitedEdition的安装包制作
c# 操作注册表
Source Insight 常用设置和快捷键大全

原文地址：https://www.cnblogs.com/tccbj/p/8534545.html