学习总结一 - 润新知

学习总结一

网络爬虫，是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。

1.准备工作：通过浏览器查看分析目标网页

　　2.获取数据：通过HTTP库向目标点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response,便是所要获取的页面内容。

　　3.解析内容：得到的内容可能是HTML,json等格式，可以用页面解析库、正则表达式等进行解析

　　4.保存数据：可以存为文本，也可以保存到数据库，或者保存特定格式的文件

编写代码

　　1.代码规范：if__nam__="__main__"

　2.引入库

#引入自定义模块

　　　　#引入系统模块

　　　　#引入第三方模块

　 3.编写主流程（为了逻辑清晰，方便管理，将每一部分写成函数，然后在主函数中进行调用）

#爬取网页

#逐一解析网页

#保存数据

4.获取数据，逐一进行解析

5.正则提取，解析内容，连接数据库，并保存数据
相关阅读:
第一节
 20150506--不重复的随机（备忘）
20150506—WinForm自动生成按钮&按钮拖动
 20150414---ListView简介(web)
20150410---GridView分页（备忘）
添加图片
 20150311—html中iframe(转发)
20150323--MVC
20150320--安全性，Membership类
 20150317--委托、代理
原文地址：https://www.cnblogs.com/wwbzuiku/p/14206046.html

热门文章
数据类型
 语句（三）
语句（二）
语句
 语言基础（三）
语言基础（二）
进制转换
 运算符
 基本类型转换
 Visual Studio 2012

Copyright © 2020-2023 润新知