网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况

网页爬虫--python3.6+selenium+BeautifulSoup实现动态网页的数据抓取，适用于对抓取频率不高的情况
说在前面：本文主要介绍如何抓取页面加载后需要通过JS加载的数据和图片

本文是通过python中的selenium（pyhton包） + chrome（谷歌浏览器） + chromedrive（谷歌浏览器驱动）

chrome 和chromdrive建议都下最新版本（参考地址：https://blog.csdn.net/yoyocat915/article/details/80580066）

同样支持无头模式（不需要打开浏览器）

直接上代码：site_url：需要爬取的地址，CHROME_DRIVER_PATH：chromedrive存放地址
```
 1 def get_dynamic_html(site_url):
 2     print('开始加载',site_url,'动态页面')
 3     chrome_options = webdriver.ChromeOptions()
 4     #ban sandbox
 5     chrome_options.add_argument('--no-sandbox')
 6     chrome_options.add_argument('--disable-dev-shm-usage')
 7     #use headless，无头模式
 8     chrome_options.add_argument('--headless')
 9     chrome_options.add_argument('--disable-gpu')
10     chrome_options.add_argument('--ignore-ssl-errors')
11     driver = webdriver.Chrome(executable_path=CHROME_DRIVER_PATH,chrome_options=chrome_options)
12     #print('dynamic laod web is', site_url)
13     driver.set_page_load_timeout(100)
14     #driver.set_script_timeout(100)
15     try:
16         driver.get(site_url)
17     except Exception as e:
18         #driver.execute_script('window.stop()')  # 超出时间则不加载
19         print(e, 'dynamic web load timeout')
20     data = driver.page_source
21     soup = BeautifulSoup(data, 'html.parser')
22     try:
23         driver.quit()
24     except:
25         pass
26     return soup
```
返回的一个soup，这样可以对这个soup进行搜索节点，使用select，search，find等方法找到你想要的节点或者数据

同样如果你想变成文本下载下来，则
```
1 try:
2         with open(xxx.html, 'w+', encoding="utf-8") as f:
3             #print ('html content is:',content)
4             f.write(get_dynamic_html('https://xxx.com').prettify())
5             f.close()
6     except Exception as e:
7         print(e)
```
下面详细说一下，beautifusoup的搜索

首先如何定位到一个标签

1.使用 find （这位博主详细介绍了https://www.jb51.net/article/109782.htm）
- find() 返回匹配第一个：如soup.find(name='ul',attrs={class:'hh'}) 返回第一个 class='hh'的ul
- find_all() 返回全部
- find_parent() 搜索父标签，返回第一个
- find_parents()搜索父标签，返回全部
- find_next_sibling()返回下一个同级标签
- find_next_siblings()
- find_previous_sibling() 返回上一个同级标签
- find_previous()返回前面的标签
- find_all_previous()
- find_next()返回后面的标签
- find_all_next()
2.使用select

通过标签名，类名，id 类似 Jquery的选择器如 soup.select('p .link #link1') 选择定位到 <p class='link' id='link1'></p>

通过属性查找，如href ，title，link等属性，如 soup.select('p a[href="http://example.com/elsie"]')

这里匹配到的是最小的 <a href='http://example.com/elsie'></a> 并且他的上级为<p></p>

然后说一下对节点的操作

　　删除节点tag.decompose()

　　在指定位置插入子节点 tag.insert(0,chlid_tag)

最后通过beautifusoup是筛选元素的一种好的方法，下篇我们介绍正则表达式匹配筛选爬虫内容
相关阅读:
DELPHI中GetTickCount 函数的应用
 Delphi 中 StrToIntDef 函数的应用
 TeeChart 动态建曲线
 历遍指定文件夹下的文件
 DELPHI 获取错误信息
 delphi播放flash
C# 获取当前路径方法
 DELPHI 修改系统分辨率
 SQL字符串处理函数 Yang
Linux基本操作 Yang
原文地址：https://www.cnblogs.com/lelexiu/p/10189747.html