• 爬取第二弹


    http://music.taihe.com/top/dayhot/

    要求爬取歌名排行榜

    import re
    from bs4 import BeautifulSoup
    import requests
    
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
    }
    url="http://music.taihe.com/top/dayhot/"
    r=requests.get(url,timeout=30,headers=headers)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    html=r.text
    
    soup=BeautifulSoup(html,"html.parser")
    #print(soup.prettify())
    
    s=soup.find_all("a",target="_blank",href=re.compile('/song/'))   
    #find_all后面的这些是观察和测试发现的


    for i in range(50): print(s[i].string)

    #type(s)发现是

    type(s)
    Out[150]: bs4.element.ResultSet

    然后测试s[1]发现和列表有点像,于是就差不多了,,,

    输出如下

    沙漠骆驼
    卡路里(电影《西虹市首富》插..
    往后余生
    只要平凡
    无问西东
    我的爱(慕思《觉/醒》视频主题曲)
    至少还有你爱我
    半壶纱
    寂寞的人伤心的歌
    演员
    你不来我不老 (对唱版)
    红颜旧
    一起红火火
    独孤天下
    都说
    明智之举
    大鱼
    《绝代风华》(天下3十周年主题曲)
    东西
    你是我今生的依靠
    后来
    沙漠骆驼
    逆流成河
    唱一首情歌
    一百万个可能
    Don't Touch
    如约而至
    风雨无阻
    最美的期待
    小苹果(新年Remix版)
    过
    只羡鸳鸯不羡仙(电影同名主题曲)
    38度6(DJ版)
    武夷来思
    暧昧
    不再错过你(电影《进击的男孩》..
    瓜很甜
    沐春风
    想你啦
    后来的我们(电影《后来的我们》..
    你还要我怎样
    大王叫我来巡山
    风筝误
    我的心里只有你没有他(电影《进..
    月弯弯
    亲爱的 你在哪里
    灵魂走在大街上
    当爱已成往事
    怒放
    暖山

    由于现在的知识,所以只能爬取一页,慢慢再更,改进他

  • 相关阅读:
    学习博客 启动日记
    hystrix dashboard Unable to connect to Command Metric Stream解决办法
    iview-cli 项目、iView admin 跨域问题解决方案
    java面试题
    -bash: sdk: command not found
    Python之路径处理
    Python之简单文件操作
    Python之常用数据类型详解
    Python常用内置函数
    2015年开发业界十大技术视频排行榜
  • 原文地址:https://www.cnblogs.com/xinqidian/p/10224283.html
Copyright © 2020-2023  润新知