• python爬虫豆瓣网


    import requests
    from bs4 import BeautifulSoup
    url = 'http://www.douban.com'
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text,'lxml')
    titles = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.title > a')
    times = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.datetime')
    didian = soup.select('#anony-events > div > div.main > div > ul > li > div.info > address')
    scores = soup.select('#anony-events > div > div.main > div > ul > li > div.info > div.follow')
    for title,time,di,score in zip(titles,times,didian,scores):
        data = {
            'title':title.get_text(),
            'time':time.get_text(),
            'di':di.get_text(),
            'score':score.get_text()
        }
        for key,value in data.items():
            print(key,':',value)
        print('------------------------------')

    简单爬取豆瓣网同城活动内容,爬取结果:

    di :
    金阳东街18号万科都荟体验...

    title :
    万科携手设计地图100 献上原创“家剧”大片

    time :
    5月29日 周日 - 6月12日 周日

    score :
    23人关注

    ------------------------------
    di :
    云南路50号和光陶社

    title :
    色诱——小草釉画展

    time :
    5月23日 周一 - 6月6日 周一

    score :
    52人关注

    ------------------------------
    di :
    长江路101号 南京文化艺术中心

    title :
    蓝色多瑙河四手联弹钢琴音乐会
    正在售票

    time :
    8月20日 周六 19:30 - 21:00

    score :
    12人关注

    ------------------------------
    di :
    玄武区长江路101号南京文化...

    title :
    南京站-爱乐汇·“天空之城”久石让&宫崎骏动漫作品视...
    正在售票

    time :
    7月15日 周五 19:30 - 21:30

    score :
    10人关注

    ------------------------------

  • 相关阅读:
    C# 多线程Thread.IsBackground=True的作用
    JS 判断用户设备 移动端或桌面端
    VSCode 代码格式化 快捷键
    PHP 根据 IP 获取定位数据
    C# 将文本写入到文件
    C# 读取文件内容
    PHP 美化输出数组
    VSCode 设置 Tab 空格
    custom post types 404 Page Error
    [已解决] wordpress 修改 permalink 后 页面 404 问题
  • 原文地址:https://www.cnblogs.com/chenyaling/p/5556589.html
Copyright © 2020-2023  润新知