小说文本爬取

爬取的网页：http://www.shicimingju.com/book/sanguoyanyi.html

import requests
import bs4
import lxml
import os

headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
}
url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
page_text = requests.get(url=url,headers=headers).text
soup = bs4.BeautifulSoup(page_text,'lxml')
book = soup.select('.card > h1 ')[0].string  # 获取小说名
os.mkdir(book)

a_list = soup.select('.book-mulu > ul > li > a')  # 获取所有的a标签
for a in a_list:
    title = a.string  # 获取章节名
    f = open(book+'\'+title,'w',encoding='utf-8')
    url_detail = 'http://www.shicimingju.com'+a['href']
    page_text_detail = requests.get(url=url_detail,headers=headers).text
    soup = bs4.BeautifulSoup(page_text_detail, 'lxml')
    content = soup.find('div',attrs={'class':'chapter_content'}).text
    f.write(content)
    print(title,'下载成功')

相关阅读:
memcache和memcached区别
C++成员函数指针错误用法警示（成员函数指针与高性能的C++委托，三篇），附好多评论
高手问答精选：Go 语言 —— 云计算时代的 C 语言（类似于一个FAQ）
Delphi XE5 Android 调用手机震动（通过JObject测试是否支持震动）
Delphi Android 将Google ZXing 整合（调用Jar文件）
Delphi Android ActivityManager（提供了接口, 利用它可以方便的对Memory, Processes, Task, Service 等进行管）
Azure 云 Web 应用程序
C#由变量捕获引起对闭包
React.js学习
Web API

原文地址：https://www.cnblogs.com/KingOfCattle/p/12907968.html