Beautiful Soup 如何获取到href

直接上代码, 你需要修改一下黄色的部分。

from bs4 import BeautifulSoup

import requests

main(url):

html = requests.get(url, timeout=30) #获取网页

soup = BeautifulSoup(html, 'lxml') #获取lxml树
liTags = soup.find_all('li', attrs={'class': 'aaa'})#获取li标签,类名为aaa

comments = [] #初始化一个数组，存放每个li中需要保存的项

for li in liTags: # 迭代器获取每个标签的属性值

　　comment['href'] =li.find('a', attrs={'class': 'bbb'}, href = True).attrs['href']) #找到a标签下，类名为bbb，属性值

　　comment['title'] =li.find('a', attrs={'class': 'bbb'}, href = True).attrs['title']) #找到a标签下，类名为bbb，属性值

　　comment['text'] = li.find('span',attrs={'class':'ccc'}).text.strip() #获取span标签下，类名为ccc的文本


一般来说，网页中li标签下的内容，是我们想要的，所以：
1、把所有li标签提取出来， li 可以通过class, id, name, title等等方式匹配。 
2、迭代的方式，在每个里标签下，把你想要的标签下内容提取出来，除了class标签，其他的所有标签值都是可以提取出来的，包括title, id, name, ...

标签下有用的内容，有两种获取方式：
.attrs 和 .text

需要注意的是，标签匹配的时候，需要把空格去掉。例如： ' aaa'和'aaa'不是同样的标签，如果' aaa', 可能导致匹配不成功。

相关阅读:
C语言I博客作业04
C语言II博客作业03
C语言II博客作业02
C语言II博客作业01
学期总结
C语言I博客作业08
C语言I博客作业07
C语言I博客作业06
C语言I博客作业05
C语言I博客作业04

原文地址：https://www.cnblogs.com/montai/p/13231722.html