Python网络爬虫与信息提取02

Python网络爬虫与信息提取02
如何解析HTML页面信息标记和提取方法

BEAUTIFUL SOUP

实战项目

实例一中国大学排名爬虫Projects

BEAUTIFUL SOUP可以爬取和解析

pip install beautifulsoup4
```
import requests

r=requests.get("http://python123.io/ws/demo.html")

r.text

demo=r.text
```
```
from bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")

print(soup.prettify())
```
```
 
```
BeautifulSoup库的理解：是解析，遍历，维护“标签树”的功能库。

BeautifulSoup类和标签树和HTML文档等价

BeautifulSoup类使标签树成一个变量，进行处理
```
from bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")
soup.title
tag=soup.a
tag.attrs
soup.a.name
soup.a.parent.name
```
基于bs4遍历来获取HTML的内容

标签树的下行遍历
```
soup=BeautifulSoup(demo, "html.parser")
soup.head
soup.head.contents
soup.boddy.contents
len(soup.body.contents)
for child in soup.body.children:
    print(child)
```
标签树的上行遍历

标签树的平行遍历(所有的平行遍历在同一个父节点下的各节点间)
相关阅读:
我的JAVA之旅（二）初识JAVA
ORACLE并发处理
 我的JAVA之旅（一）安装配置
 我的JAVA之旅（三）元素语法
 改变一生的五句话
 InstallShield集成安装MSDE2000最小版本(三) fishout特许授权发布
 IS2009修改XML File 奕婷特许授权发布
 SQL Server中多个表格求出相同列和不同列（答案来自CSDN上SQL专家的回答）
InstallShield集成安装MSDE2000最小版本(二) fishout特许授权发布
 Installshield停止操作系统进程的代码 IS6及以上版本适用
原文地址：https://www.cnblogs.com/gzoof/p/7505844.html