爬虫过程中遇到的错误总结一

1、场景：爬取的是一个具有多个公告的网站，检索出来的信息以js渲染出来的数据，多个分页的场景。
首先用selenium获取了第一页的信息，之后对第一页的多个标题进去爬取数据，爬取每个分页，在第一页
所有信息界面爬取结束后，进行翻页爬取，如此到最后一页。

stale element reference：element is not attached to the page document问题：

这个错误是在遍历第一页的分页时候，当从第一个标题明细进去之后返回报的错误，需要对当前的driver对象进行重新定位
解决。解决过程中我增加了对当前页面的显示等待功能。具体代码如下，加入显示等待是为了更加符合逻辑吧，可能不加也
可以照常运行，这个里面最关键的就是重新定位。

            # 解析元素 element_a是获取的每一页的所有的element集合
            element_a = self.driver.find_elements(By.XPATH, '//div[@class="title"]/a[@class="fontlan"]')
            for i in range(len(element_a)):
                element_a = self.driver.find_elements(By.XPATH, '//div[@class="title"]/a[@class="fontlan"]') # 重新定位获取一下（比较关键）
                # 进入了子页面
                if element_a[i].get_attribute('href'):
                    print('child pages   ~~~~~~~~~~~~~', type(element_a[i].get_attribute('href')), element_a[i].get_attribute('href'))
                    self.driver.get(element_a[i].get_attribute('href'))
                    wait1 = WebDriverWait(self.driver, 10)
                    wait1.until(EC.presence_of_all_elements_located((By.XPATH, '//p')))
                    child_element_title = self.driver.find_element(By.XPATH, '//h1/span')
                    child_element_content = self.driver.find_element(By.XPATH, '//p')
                    title = child_element_title.get_attribute('text')
                    content = child_element_content.get_attribute('text')
                    # print(title, content)
                    # 都不为空时候创建
                    if title and content:
                        with open('./motfiles/' + str(title) + '.txt', 'a+', encoding='utf-8') as f:
                            f.write('\n'.join(content))
                    self.driver.back()
                    # 每一页都让变为可点击的，最长等待时间为10s
                    wait = WebDriverWait(self.driver, 10)  # 显示最长等待时间10s如出来就直接走，没有出来报异常
                    wait.until(EC.element_to_be_clickable((By.XPATH, "//a[contains(text(),'下一页')]")))

2、之后遇到在来加。。。

相关阅读:
TPLINK GPL code 简要分析
 Openwrt 初探
 物联网-手机远程控制家里的摄像头(3)
物联网-手机远程控制家里的摄像头(2)
lumia 520无法开机
 树莓派无法驱动移动硬盘
 Cannot Change Opencv Webcam Setting
IIC协议理解(转)
应用调试(六)记录回放输入子系统
 应用调试(五)侵入式SWI
原文地址：https://www.cnblogs.com/hbym/p/15700937.html