• 爬虫(二):urllib库文件的基础和进阶(python2.7)


    1 import urllib2
    2 url="https//www.baidu.com";
    3 response=urllib2.urlopen(url);
    4 print response.read()
    5 #************************************同样上面网页的代码可以通过request对象进行访问************
    request=urllib2.Request(url)
    response=urllib2.urlopen(request)
    print response.read()

    1.上面显示最简单的网页面的爬虫,在实际的过程中爬取的页面有服务器的登录和cookie等网页的登录:

    一般有POSt和GEt数据传送方式:Get向服务器发送索取数据的请求直接暴露动态网页上cookies同时GET传送方式url链接字数限制,

    POST,直接向服务器提出登录请求:

    最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。

     1 import urllib
     2 import urllib2
     3 from pip._vendor.requests.api import request
     4 url="https://mail.qq.com/cgi-bin/loginpage?autologin=n&errtype=1&clientuin=2465923505&param=&sp=&tfcont=22%20serialization%3A%3Aarchive%205%200%200%204%200%200%200%208%20authtype%201%204%209%20clientuin%2010%202465923505%206%20domain%206%20qq.com%202%20vm%203%20wsk&r=81a3f6c4a511bbe45ef3bcefd8e4e99e"
     5 values={};
     6 values['username']="2465923505";
     7 values['password']="XXXXXXX"
     8 
     9 data=urllib.urlencode(values)
    10 request=urllib2.Request(url,data)
    11 print request
    12 response=urllib2.urlopen(request)
    13 
    14 print response.read()
  • 相关阅读:
    docker search 报错
    mgo连接池
    饿了么这样跳过Redis Cluster遇到的“坑”
    Linux Swap的那些事
    epoll使用详解(精髓)(转)
    select、poll、epoll之间的区别总结[整理](转)
    git merge 和 git rebase 小结(转)
    linux查看端口占用情况
    [LeetCode] Combinations——递归
    C++中的static关键字的总结(转)
  • 原文地址:https://www.cnblogs.com/woainifanfan/p/5742754.html
Copyright © 2020-2023  润新知