今天学习了有关python的一些相关知识
1.requests库:实现网页的下载
使用方法:
import requests//引入 def download_all_htmls():#设置一个函数 htmls=[]; for idx in range(43):#要下载的网页有分页 总共43页 url=f"https://yz.chsi.com.cn/sch/?start={idx*20}"#f是为了使字符串格式化 print("craw html",url) r=requests.get(url)#得到网页内容,状态码应为200,不为200则异常 if r.status_code!=200: raise Exception("error") htmls.append(r.text) return htmls htmls=download_all_htmls()
r=requests.get()传入一个url
r.text得到文本形式的网页内容
2.
BeautifulSoup库:解析需要的标签,链接等内容
使用方法:
祝:仅为举例,与上面的代码并不是一部分
def pa(html): soup=BeautifulSoup(html,"html.parser") articles=soup.find_all("artical") datas=[] for article in articles: title_node=( article.find("h2",class_="entry_title") .find("a") ) title=title_node.get_text() # 得到title的内容 link=title_node["href"] # 得到title的链接 datas.append({"title":title,"link":link}); return datas
3.pandas库:用于数据挖掘和数据分析,同时也提供数据清洗功能。