1.安装scrapy框架
# 1.在安装scrapy前需要安装好相应的依赖库,再次装scrapy,安装步骤
(1).安装lxml库:pip install lxml
(2).安装wheel: pip install wheel
(3).安装twisted:pip install twisted 文件路径
(twisted需要下载本地安装,下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted)(版本选择根据自己实际选择)
(下载完以后把文件放在桌面,进入文件然后cmd,输入命令:pip install Twis(按Tab键自动补全))
(4).安装pywin32:pip install pywin32
(注意:以上安装步骤一定要确保每一步安装都成功,没有报错信息)
(5).安装scrapy: pip install scrapy
(注意:以上安装步骤一定要确保每一步安装都成功,没有报错信息)
(6).成功验证:在cmd命令行输入scrapy,显示Scrapy 2.2.0 - no active project,证明安装成功
新建项目
# scrapy
scrapy startproject name # 创建项目
scrapy genspider name baidu.com #创建爬虫
# 运行
scrapy crawl name
cd 项目名称
scrapy genspider baidu daidu.com # 文件名字 和 域名
解析模块:
bs4
pip install beatufulsoup4==4.7.0
pyquery
pip install pyquery