• Web Spider 01


    基于python 3

    基本应用

    import urllib.request
    
    url = 'http://www.douban.com'
    request = urllib.request.Request(url)
    response = urllib.request.urlopen(request)
    
    html = response.read()
    html = str(html, 'utf-8')
    
    print(html)
    

    简单登录

    import urllib.parse
    import urllib.request
    import http.cookiejar
    
    # 登录的主页面
    host_url = 'http://127.0.0.1:8008/login_page.php'
    # post数据接收和处理的页面(我们要向这个页面发送我们构造的Post数据)
    post_url = 'http://127.0.0.1:8008/login.php'
    #url = 'http://www.douban.com'
    
    # 设置一个cookie处理器,它负责从服务器下载cookie到本地,并且在发送请求时带上本地的cookie
    cj = http.cookiejar.LWPCookieJar()
    cookie_support = urllib.request.HTTPCookieProcessor(cj)
    opener = urllib.request.build_opener(
        cookie_support, urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    
    # 打开登录主页面(他的目的是从页面下载cookie,这样我们在再送post数据时就有cookie了,否则发送不成功)
    h = urllib.request.urlopen(host_url)
    
    
    # 构造header,一般header至少要包含一下两项。这两项是从抓到的包里分析得出的。
    headers = {'User-Agent':
               'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1'
               }
    
    post_data = {
        'username': '***',
        'password': '***'
    }
    # 需要给Post数据编码
    post_data = urllib.parse.urlencode(post_data).encode('utf-8')
    # 通过urllib2提供的request方法来向指定Url发送我们构造的数据,并完成登录过程
    request = urllib.request.Request(post_url, post_data, headers)
    
    print(request)
    response = urllib.request.urlopen(request)
    text = response.read()
    text = str(text, 'utf-8')
    
    print(text)
    
    save_path = "snatch2.txt"
    # save_path 's file unnecessary to be exist
    f_obj = open(save_path, 'w')
    f_obj.write(text)
    print("snatch successfully.")
    
  • 相关阅读:
    javascript 基本数据类型
    数据库管理小工具帮助
    CSS3实现32种基本图形
    面试题2:替换空格
    面试题1:二维数组中查找
    图的深度优先和广度优先搜索算法
    Spring+Maven+Dubbo+MyBatis+Linner+Handlebars—Web开发环境搭建
    Spring学习笔记—最小化Spring XML配置
    Spring学习笔记—装配Bean
    Spring学习笔记—Spring之旅
  • 原文地址:https://www.cnblogs.com/keer2345/p/5864330.html
Copyright © 2020-2023  润新知