• 浏览器代理爬虫问题


    以上参考:https://blog.csdn.net/weixin_43902320/article/details/104342771

    以下是自己的第一个爬虫小程序,虽然简单,但也值得记录下来:

    import requests
    import bs4
    
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
    Chrome/86.0.4240.198 Safari/537.36 QIHU 360EE'} #上一行内容由于太长了,用了换行符,但让也可以用三引号“”“ ”“”;
    ##此外,由于豆瓣用了反爬功能所以,要伪装成自己的真实浏览器,在浏览器地址栏输入:about:version,然后把显示出的用户代理后面的内容全部复制下来;
    ##放到headers中的User-Agent键对应的value中即可。
    
    res = requests.get("https://movie.douban.com/top250",headers=headers)
    # print(res)
    soup = bs4.BeautifulSoup(res.text,"html.parser")
    # print(soup)
    targets = soup.find_all("div",class_="hd")
    # print(targets)
    for each in targets:
        print(each.a.span.text)
    
    输出:
    肖申克的救赎
    霸王别姬
    阿甘正传
    这个杀手不太冷
    泰坦尼克号
    美丽人生
    千与千寻
    辛德勒的名单
    盗梦空间
    忠犬八公的故事
    星际穿越
    楚门的世界
    海上钢琴师
    三傻大闹宝莱坞
    机器人总动员
    放牛班的春天
    无间道
    疯狂动物城
    大话西游之大圣娶亲
    熔炉
    教父
    当幸福来敲门
    龙猫
    怦然心动
    控方证人
    
    Process finished with exit code 0
    

    因为此处的class和python中的关键字重复,所以在爬虫的python中用class_来代替,class_来表示hd的一个div

    标签。然后把他们的标题都找出来,找出之后放到一个targets的列表中去。

     所以,用for循环print(div.a.span.text)打印出来。#此处的div就是targets中的项。

    当遇到Response [200]返回值问题时:

  • 相关阅读:
    Java斗地主--001版本
    集合----方法的可变参数
    浅谈--Java编译期异常+运行期异常
    JavaSE编程基础(一)
    JavaSE编程基础(三)
    JavaSE编程基础(二)
    软件测试(三十)
    软件测试(二十九)
    软件测试(二十七)
    软件测试(二十八)
  • 原文地址:https://www.cnblogs.com/Li-JT/p/15068108.html
Copyright © 2020-2023  润新知