• 2019.04.13 请求


    一直在学习Django,我都要忘了怎么发送请求了

    因为在Django中一直请求的是自己内部的url  而怎么访问百度呢?

    https://www.cnblogs.com/zealousness/p/8748906.html

    https://www.jianshu.com/p/9e50c58dabdd

     

    首先得先安装 pip install requests   这个模块

     

    http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced

    处理图像你还得安装 pip install pillow   模块

    按照上面流程下来还是一脸懵呀

    那就通过爬虫来了解这HTTP吧

     

    https://movie.douban.com/top250

     

    https://www.cnblogs.com/haichong/p/8067874.html

    1.首先得知道自己要爬哪里网址   分析?后的参数  知道如何分页的

    2.明确我要爬取的内容数据吧,排名,名字,导演,评语,评分  然后要查看元素所在的位置

    现在的问题是这些方法我不知道怎么用  

    BeautifuSoup  这肯定是个过滤器  查找特定的过滤器

    os路径的问题

    我们就来介绍一个强大的解析工具Beautiful Soup,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。 

    3、 解析器 
    Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)

    欧克  理清思路  再自己动手

    爬虫需要请求和解析HTML元素  python为我们提供了两种模块

    from bs4 import BeautifulSoup

    import requests

    先是获取网页,那么就是要请求 

    requests.get(url=,headers = )

    请求地址,请求头  UA伪装代理浏览器  然后已经请求到了网页

    那么接下来解析网页,获取想要的内容

    先创建一个BeautifulSoup的实例对象soup  把内容传进去,用lxml解析

    过滤自己需要的那部分信息就好了  用BeautifulSoup 提供的方法find()find_all("")

    到此获取和分析基本的网页结构已经好了  接下就应该是获取里面的内容了

    如何获取内容呢  通过get_text()

    下一步是如何存到文件中呢  

    有个负责路径的模块  import os

    print(response)

    #输出

    <Response [200]>

    也算是完成了吧   爬虫三步走:请求地址,获取内容,存储文件

             对应模块:requests   bs4 BeautifulSoup   os

  • 相关阅读:
    java简单实现MD5加密
    Java用freemarker导出Word 文档
    java 反射(*)
    java解析XML
    JDBC程序实例
    web前端开发-博客目录
    虚拟主机配置
    WAMP运行原理
    WAMP配置
    web前端性能优化总结
  • 原文地址:https://www.cnblogs.com/Py-king/p/10707212.html
Copyright © 2020-2023  润新知