python网络爬虫与信息提取学习笔记day1 - 润新知

python网络爬虫与信息提取学习笔记day1
Day1：

安装python之后，为其配置requests第三方库，并爬取百度主页内容。

语句解释：

r.status_code检测请求的状态码，如果状态码为200，则说明访问成功，否则，则说明访问失败。

注意Response对象的五个属性：

爬取网页的通用代码框架：
```
# -*- coding: utf-8 -*-

"""

Spyder Editor

 

This is a temporary script file.

"""

import requests

 

def getHTMLText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

   

if __name__=="__main__":

    url="http://www.baidu.com"

    print(getHTMLText(url))
```
　　

HTTP URL的理解

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

http协议对资源的操作对应requests库的六个操作

post:向URL POST一个字典，自动编码为form(表单);想URL POST一个字符串，自动编码为data
相关阅读:
管道/重定向/环境变量
 用户和组命令
 常用命令
 系统监控及进程
 Centos硬件信息
 Centos系统信息及日志
 linux防火墙
 ipt_connlimit限制并发,ipt_recent限制单位时间内的请求数目
 apache添加mod_limitipconn限制单个ip并发连接数
 php核心技术与最佳实践知识点(下)
原文地址：https://www.cnblogs.com/yezhaodan/p/7419192.html

Copyright © 2020-2023 润新知