• selenium和PhantomJS的使用


    利用selenium来进行爬取数据

    import time
    from selenium import webdriver
    
    # 创建phantomjs浏览器对象
    driver = webdriver.PhantomJS()
    # 向网站发送请求
    driver.get("http://www.baidu.com/")
    # 打印响应html源码
    print(driver.page_source)
    # 查看源码中是否有搜索两个字,失败返回-1,成功非-1
    print(driver.page_source.find("搜索"))
    # 向百度搜索框发送内容
    driver.find_element_by_id("kw").send_keys("拉勾")
    # 点击搜索按钮
    driver.find_element_by_id("su").click()
    # 为了得到一张完整的图片,因此添加延时
    time.sleep(2)
    # 获取内存中网页中的截屏
    driver.save_screenshot("拉勾.png")
    # 关闭浏览器
    driver.quit()

    如果要用chrome浏览器的话,则将浏览器对象改为Chrome就可以

    driver = webdriver.Chrome()

    若要将有头浏览器变成无头浏览器的话,这添加

    opt = webdriver.ChromeOptions()
    opt.set_headless()
    driver_item = webdriver.Chrome(options=opt)

    还有好多方法,查看文档即可:https://python-selenium-zh.readthedocs.io/zh_CN/latest/

  • 相关阅读:
    logstash Codec
    mysql 插入前 锁表问题
    数据统一管理--企业决策分析之刚需
    数据统一管理--企业决策分析之刚需
    MySQL RR隔离 读一致性
    java HashTable
    mysl lock table read
    mysql DBI 事务控制
    Fiddler模拟http请求
    haproxy hdr_beg 配置
  • 原文地址:https://www.cnblogs.com/zengsf/p/10031924.html
Copyright © 2020-2023  润新知