Python 爬虫入门

爬虫，也就是网络爬虫。将互联网当做大的蜘蛛网，我们的程序就是模拟蜘蛛去获取蜘蛛网上的信息。

翻译为计算机语言就是：模拟浏览器发送请求（配置好相应的请求头， url， cookies）

　　　　　　　　　　　解析拿到的html， dom，做数据填充，固定的数据格式

所以在写爬虫之前需要明确：爬取目标，爬取后要整理成什么样的数据结构

　　需要一些浏览器的基本知识，如F12，network，页面元素，cookie

然后就来写爬虫（前提是python环境已经搭建好）：

醉醉简单的爬虫：

import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("。。。。。")

print html

相关阅读:
Hbase学习记录（2）| Shell操作
Hbase学习记录（1）|伪分布式安装
Zookeeper集群安装详解
防范xss的正确姿势
怎么样通过编写Python小程序来统计测试脚本的关键字
XSS报警机制（前端防火墙：第二篇）
XSS姿势——文件上传XSS
MySQL防范SQL注入风险
SQL注入—我是如何一步步攻破一家互联网公司的
通过BurpSuite和sqlmap配合对dvwa进行sql注入测试和用户名密码暴力破解

原文地址：https://www.cnblogs.com/zslb/p/8352656.html