------------恢复内容开始------------
调试过程中遇到的问题
(1)爬取首页源码出现中文乱码
解决方案: 将网页编码强制转换成gbk,并去除解决乱码问题的三行代码。
(2)程序运行到一半一直没有反应,没有报错也没有停止运行。
原因:频繁请求服务器,网站有反爬取机制。
解决方案:添加一个header浏览器伪装,模仿浏览器请求,防止封锁本机IP地址。
(3)标题加入列表时抛出异常。
原因:某个文章标题 含有空格符,BeautifulSoup无法解析。
解决办法:利用replace()函数将xa0代替掉。
(4)保存列表数据时格式没有对齐,有点乱
原因:原文中含有大量的 存在,列表存入时遇到 直接换行存入。
解决办法:利用replace()函数将 代替掉。