爬虫,也就是网络爬虫。将互联网当做大的蜘蛛网,我们的程序就是模拟蜘蛛去获取蜘蛛网上的信息。
翻译为计算机语言就是: 模拟浏览器发送请求(配置好相应的请求头, url, cookies)
解析拿到的html, dom,做数据填充, 固定的数据格式
所以在写爬虫之前需要明确:爬取目标, 爬取后要整理成什么样的数据结构
需要一些浏览器的基本知识,如F12,network,页面元素,cookie
然后就来写爬虫(前提是python环境已经搭建好):
醉醉简单的爬虫:
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("。。。。。")
print html