昨天通过学习了解了爬虫的简单架构:今天我们就将他进行了具体的练习-爬取 百科词条
首先环境是eclipse+python3.8
先看一下具体的框架:
url_manager:url管理器;html_downloader:网页下载器;html_parser:网页解析器;html_outputer:获取输出
一般来说 我们比较关心的是解析器 :如何将网页中的数据提取出来 ——一般 选中页面中的要提取的内容 右键审查元素 看他所在的模块
例如:右键选中
审查元素
右键 edit as html
复制目的物的模块代码
<dd class="lemmaWgt-lemmaTitle-title">
<h1>区块链</h1>
在爬虫解析器中我们会这样使用:
title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1") res_data['title']=title_node.get_text()