• Python网页抓取


    #coding:utf-8
    
    import urllib   #导入模块
    print dir(urllib)   #查看urllib方法
    print help(urllib.urlopen)  #查看帮助文档
    
    url="http://www.baidu.com"  #定义网址
    html=urllib.urlopen(url)   #打开url
    print html.read()   #urlopen有一个方法是read()
    
    # 解决编码问题
    print html.read().decode("gb2312").encode("utf-8")
    # 忽略不能识别的内容
    print html.read().decode("gbk",'ignore').encode("utf-8")  
    
    # 获取头部信息
    print html.info()
    
    # 获取状态码
    print html.getcode()
    
    # 获取url地址
    print html.geturl()
    
    # 下载网页
    urllib.urlretrieve(url,"F:\1.txt")
        # 参数:1、网址(必须是字符串);2、本地保存路径+文件名(注意Windows下的路径转义)
        # 3、一个函数调用,可以任意定义函数的行为(要保证函数有3个参数)
            # 3.1 到目前为止传递的数据块数量
            # 3.2 每个数据块的大小,单位byte,字节
            # 3.3 远程文件大小
    
    # 函数定义
    def callback(a,b,c):
        """
        这里是注释
        """
    
    # 关闭打开的文件,这是很重要的!
    html.close()  
    
    
    # 判断内容
    code=html.getcode()
        # 判断类型
        print type(code)
    if code==200:
        print "正常"
    else:
        print "网页异常"
  • 相关阅读:
    mongodb分片集群报错261
    Galera集群安装报错Operation not permitted
    k8s部署php程序访问显示报错
    k8使用secret拉取镜像失败的问题
    nginx反向代理与负载均衡
    ---connet MPT device to PC under Ubuntu
    ----vysor
    ---su
    ---mysql utf8 设置
    ---Android logcat 记录日志
  • 原文地址:https://www.cnblogs.com/Lzero/p/4000047.html
Copyright © 2020-2023  润新知