学习进度-16 python爬虫

爬虫是一个程序，这个程序的目的就是为了抓取万维网信息资源，比如你日常使用的谷歌等搜索引擎，搜索结果就全都依赖爬虫来定时获取

从百度可以看出来爬虫与python关系很紧密，

爬虫的目标对象也很丰富，不论是文字、图片、视频，任何结构化非结构化的数据爬虫都可以爬取，爬虫经过发展，也衍生出了各种爬虫类型：

通用网络爬虫：爬取对象从一些种子 URL 扩充到整个 Web，搜索引擎干的就是这些事

垂直网络爬虫：针对特定领域主题进行爬取，比如专门爬取小说目录以及章节的垂直爬虫

增量网络爬虫：对已经抓取的网页进行实时更新

深层网络爬虫：爬取一些需要用户提交关键词才能获得的 Web 页面

要爬虫必须掌握：
网页的结构是HTML，爬虫的目标就是解析HTML，获取目标字段并保存

客户端展现的网页由浏览器渲染，客户端和服务端的信息交互依靠HTTP协议

爬虫得步骤为：

模拟请求网页资源

从HTML提取目标元素

数据持久化

例如：

import requests

from bs4 import BeautifulSoup

target_url = 'http://www.baidu.com/s?wd=爬虫'

# 第一步 发起一个GET请求
res = requests.get(target_url)

# 第二步 提取HTML并解析想获取的数据 比如获取 title
soup = BeautifulSoup(res.text, "lxml")
# 输出 soup.title.text
title = soup.title.text

# 第三步 持久化 比如保存到本地
with open('title.txt', 'w') as fp:
    fp.write(title)

这就是一个简单得爬虫

参考网址：https://www.jianshu.com/p/c92dae931098

相关阅读:
2010年10月全球web服务器调查
Orchard 发布1.0版本和ASP.NET MVC 3 RTM
推荐一个在Linux/Unix上架设ASP.NET的 WEB服务器Jexus
Windows Azure 的成本架构
RavenDB系列教程
Mono环境下不支持中文的解决方法
IIS 7.0的六大安全新特性为你的Web服务器保驾护航
Windows 7 Phone 文档数据库Rapid Repository正式发布
使用log4Net 输出日志到mongodb
Ubuntu & Fedora Mono 2.8 安装脚本

原文地址：https://www.cnblogs.com/zhaoxinhui/p/12321013.html