• 简单爬虫的编写


    相关api:

      Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。

      page = urllib.urlopen(url)    //urllib.urlopen()方法用于打开一个url地址,urlopen(url,value),通过post方法访问并传递数据

      html = page.read()     //read()方法读取url的数据,

      正则表达式的使用:

      re模块的compile()方法把正则表达式编译成一个对象,re.findcall()方法读取html中包含正则表达式的数据。

      urllib.urlretrieve(url,"filename");         //直接将远程数据下载到本地,默认的保存目录和.py文件在同一目录

       urllib.urlencode(data)   //可以将Json数据转换成可以post或者get传递的数据

    BeautifulSoup库

      BeautifulSoup(html).findAll('img',attr={})

  • 相关阅读:
    Linux文本处理命令
    管道和重定向
    Linux网络基本配置
    网络基础
    普通权限和特殊权限
    Linux权限
    Linux用户
    Linux帮助文档
    创建新表,自动授权trigger
    禁用约束语法测试
  • 原文地址:https://www.cnblogs.com/jiang--nan/p/7985717.html
Copyright © 2020-2023  润新知