• python之urllib2是如何运用的?正确方法教你


     

    urlopen函数
    urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
    注:
    url表示目标网页地址,可以是字符串,也可以是请求对象Request
    req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)
    data表示post方式提交给目标服务器的参数
    data = urllib.urlencode(data)

    import urllib,urllib2  
    action_url="http://www.xxxxxx.com/post"#用于测试post的网址,返回提交的数据  
    values={'name':"alice",'age':20}  
    data=urllib.urlencode(values)#对表单数据编码  
    rqst=urllib2.Request(action_url,data)  
    response=urllib2.urlopen(rqst)#模拟提交表单数据到url并获得响应

    推荐学习《python教程》

    timeout表示超时时间设置。
    返回值
    response.read()返回页面内容
    response.info()返回网页信息
    response.geturl()返回连接地址
    这个函数可以像urllib.urlopen()那样以url做参数。也能以Request实例为参数,即用一个Request对象(下文构造方法)来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,这个Request对象中可以设置传输数据、headers等。通过调用urlopen并传入Request对象,将返回一个file-like对象。urllib2还提供了接口来处理一般情况,例如:基础验证,cookies,代理和其他,它们通过handlers和openers的对象实现。
    2、Request函数
    urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
    用于构造Request对象,可以传递data数据,添加请求头(headers)等,构造好后作为urllib2.urlopen()的参数。
    注:
    url表示目标网页地址,可以是字符串,也可以是请求对象Request
    data表示post方式提交给目标服务器的参数
    headers表示用户标识,是一个字典类型的数据,有些不允许脚本的抓取,所以需要用户代理,像火狐浏览器的代理就是类似:Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
    浏览器的标准UA格式为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息 ,headers默认是Python-urllib/2.6
    origin_req_host表示请求方的主机域名或者ip地址。
    headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}

    import urllib   
    import urllib2   
    url = 'http://www.weibo.cn/'   
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
    h = { 'User-Agent' : user_agent }   
    req = urllib2.Request(url,headers=h)   
    response = urllib2.urlopen(req)   
    print response.read()

    3、build_opener()
    build_opener([handler1 [ handler2, ... ]])

    urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。
    参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
    build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。
    如果要修改http报头,可以用:

    import urllib2  
    opener = urllib2.build_opener()  
    opener.addheaders = [('User-agent', 'Mozilla/5.0')]  
    opener.open('http://www.example.com/')

    最后注意:光理论是不够的。这里顺便免费送大家一套2020最新python入门到高级项目实战视频教程,可以去小编的Python交流.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,还可以跟老司机交流讨教!
    本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

  • 相关阅读:
    [转]Sublime Text 3安装Json格式化插件
    Golang 新手可能会踩的 50 个坑【转】
    [golang]svg图片默认按照左上角旋转,改为按中心旋转,重新计算中心偏移量
    序列化是干什么的,有什么作用,什么情况下会用到?
    Hbase设置多个hmaster
    基于JMX动态配置Log4J日志级别
    面向过程与面向对象编程的区别和优缺点
    log4j自带的两个类MDC和NDC作用以及用途
    【架构师之路】集群/分布式环境下5种session处理策略
    Java Web项目如何做到升级不断掉服务,同时涉及到的相关问题
  • 原文地址:https://www.cnblogs.com/chengxuyuanaa/p/13033043.html
Copyright © 2020-2023  润新知