• 爬虫1:概述


    安装各种可能需要的库
    pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter
     
     
    一。爬虫基本原理讲解
     
    1. 抓网页
    import requests
    response=requests.get("http://www.baidu.com")
    print(response.text) 
    print(response.headers)
    print(response.status_code) //返回状态码
     
    头信息可要可不要
    headers={}
    headers={'User-Agent' : '网页上查看的请求头信息'}
    response=requests.get('http://www.baidu.com', headers=headers)
     
    2. 抓图片,视频等
    import requests
    response=requests.get('https://www.baidu.com/img/1.gif')
    print(response.content) //响应体的2进制格式
    with open('/var/1.gif', 'wb') as f:
        f.write(response.content)
        f.close()
     
     
    3. 解析方式
     
    直接处理
    json解析
    正则
    beautifulsoup
    pyquery
    xpath
     
     
    二.  怎么解决javascript渲染看不到真实源代码的问题
     
    1. 使用selenium/webdriver
    安装方法如下
    $ unzip chromedriver_linux64.zip
    $ sudo mv chromedriver /usr/bin/
    $ sudo chmod +x chromedriver
     
    windows中是把chromedirver解压包放在python目录下
     
    测试代码如下
    from selenium import webdriver
    driver=webdriver.Chrome()
    driver.get('http://m.weibo.com')
    print(driver.page_source) 
     
     
    2. splash (github上搜索)
     
     
     
    三. 怎么保存数据
    1. 文本
    2. 关系型数据库
    3. 非关系型数据库
    4. 二进制文件
  • 相关阅读:
    easypoi添加下拉预选值
    java启动项目字符编码和配置文件的字符编码问题
    leetcode
    leetcode
    leetcode
    leetcode
    事务的隔离级别- 极客时间()
    数据库的事务
    SQL中的视图(极客时间)
    SQL中的连接(极客时间)
  • 原文地址:https://www.cnblogs.com/regit/p/9243488.html
Copyright © 2020-2023  润新知