潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记） - 润新知

潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

以上内容以 spider 类获取 start_urls 里面的网页

在这里平时只写一个，是个入口，之后通过 xpath 生成 url，继续请求，

crawispider 中多了个 rules

rules 中的参数

　　link_extractor 用来定义需要提取的连接

　　　　allow=() 　　　　满足（）中正则表达式的 url 会被提取，如果为空则全部匹配，

　　　　deny=()　　　　 满足（）中正则表达式的 url 不提取，优先级高于allow,

　　callback 回调函数

　　follow

实例：

新建个项目： scrapy startproject tenxun2

cd 到 tenxun2 目录下，创建执行文件， -t crawl 指的是个模板，如果不写，默认是 spider 类的模板，

　　scrapy genspider -t crawl xxx xxx.com

运行

运行命令： scrapy crawl ten
相关阅读:
leetcode python翻转字符串里的单词
 leetcode python快乐数
 Usb gadget驱动
 cnblogs的第一篇
 python返回函数+匿名函数+装饰器+偏函数
 1144. 递减元素使数组呈锯齿状
 208. Implement Trie (Prefix Tree)
3. Longest Substring Without Repeating Characters
5. Longest Palindromic Substring :manacher
929. 独特的电子邮件地址
原文地址：https://www.cnblogs.com/gdwz922/p/9758309.html

Copyright © 2020-2023 润新知