Day2-Python爬虫小练爬取百科词条 - 润新知

Day2-Python爬虫小练爬取百科词条
昨天通过学习了解了爬虫的简单架构：今天我们就将他进行了具体的练习-爬取百科词条

首先环境是eclipse+python3.8

先看一下具体的框架：

url_manager:url管理器；html_downloader:网页下载器；html_parser:网页解析器；html_outputer:获取输出

一般来说我们比较关心的是解析器：如何将网页中的数据提取出来 ——一般选中页面中的要提取的内容右键审查元素看他所在的模块

例如：右键选中

审查元素

右键 edit as html

复制目的物的模块代码

<dd class="lemmaWgt-lemmaTitle-title">
<h1>区块链</h1>

在爬虫解析器中我们会这样使用：
```
  title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
        res_data['title']=title_node.get_text()
```
相关阅读:
2.2、Dstreams数据源之高级数据源
 配置git 环境变量
 AngularJS的 $resource服务关于CRUD操作
 如何安装和使用Karma-Jasmine
ui-router 留存
 angular的service与factory
留存- angularjs 弹出框 $modal
js 的eval()方法计算某个字符串，并执行其中的的 JavaScript 代码;
javascript函数作用域和提前声明
 npm 全局环境变量配置
原文地址：https://www.cnblogs.com/1983185414xpl/p/12177593.html

Copyright © 2020-2023 润新知