初识爬虫(番外篇-python)

最近因为一些特殊原因，了解了一下python，并且做了一个简易爬虫，目标是知乎。

注*：博主并没有深入学习python，只是了解了一下基本用法，如变量类型、循环、判断，然后使用了一下python的工具，博主对这些工具也不太了解，博主的代码仅限于实现功能，如有关于python的问题，请不要问博主。博主的python版本是2.7。

代码：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import codecs
import requests
import csv
import sys
import json
import time, datetime

#更改str基础编码为utf-8
reload(sys)
sys.setdefaultencoding('utf-8')

def getdata(cookie,page,search,search_hash_id):
    url = 'https://www.zhihu.com/api/v4/search_v3?t=general&q=' + str(
        search) + '&correction=1&offset=' + str(
        page) + '&limit=20&lc_idx=23&show_all_topics=0&search_hash_id=' + str(
        search_hash_id) + '&vertical_info=0%2C1%2C0%2C0%2C0%2C0%2C0%2C0%2C0%2C1'
    #原链接
    # url = 'https://www.zhihu.com/api/v4/search_v3?t=general&q=996&correction=1&offset=60&limit=20&lc_idx=63&show_all_topics=0&search_hash_id=12310cc00bec8e490920f7b13a16fb58&vertical_info=0%2C1%2C0%2C0%2C0%2C0%2C0%2C0%2C0%2C1'
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36",
        "cookie": cookie,
        "Host": "www.zhihu.com",
        "Referer": "https://www.zhihu.com/",
    }

    res = requests.get(url, headers=headers)
    #json转字典
    result = json.loads(res.text)
    #主要数据
    data = result['data']
    return data

def savedata(cookie,page,search,filename,search_hash_id):
    index = 1
    data = []
    #循环拼接分页数据
    while index <= page:
        data += getdata(cookie, index*20, search,search_hash_id)
        index = index + 1

    with open(filename, 'wb') as f:
        f.write(codecs.BOM_UTF8)
        writer = csv.writer(f)
        #表头
        fields = ('标题', '描述', '点赞', '评论', '创建时间')
        encoding = 'utf-8-sig'
        writer.writerow(fields)

        for key in data:
            #忽略错误
            try:
                title = str(key['highlight']['title'])
                description = str(key['highlight']['description'])
                voteup = str(key['object']['voteup_count'])
                comment = str(key['object']['comment_count'])
                time_str = float(key['object']['created_time'])
                #时间戳转时间
                timeArray = time.localtime(time_str)
                create_time = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
                # print('标题:'+title)
                # print('描述:'+description)
                # print('点赞:'+voteup)
                # print('评论:'+comment)
                # print('创建时间:'+create_time)

                row = []
                row.append(title)
                row.append(description)
                row.append(voteup)
                row.append(comment)
                row.append(create_time+'	')
                writer.writerow(row)
            except:
                print("发生异常")

if __name__ == '__main__':
    #cookie 重要参数 cookie与search_hash_id会发生改变，即时到知乎网页请求获取最新参数
    cookie = '写入你的cookie'
    page = 10    #获取多少页数据 知乎默认一页20条数据
    search = '996'    #搜索内容
    filename = '996.csv'    #保存的文件名 保存到本文件同目录下
    search_hash_id = 'bcdfc2c7b22a17917dd6d6aa6752b3a4'     #知乎搜索id 重要参数
    savedata(cookie,page,search,filename,search_hash_id)

工具：

PyCharm、Anaconda2

具体安装方法：https://www.cnblogs.com/yuxuefeng/articles/9235431.html 这篇博客讲的很清楚，其中要注意python要用到很多工具，自己安装很费事，而Anaconda带有很多工具，不需要自己再安装，但是一定要将解释器选择为Anaconda中的python，不然是无法利用到Anaconda的。

效果：

注意：

本博客的代码只能爬到这种数据：

不能爬到这种数据：

因为数据格式不同，也不能说不能爬到，采集是可以采集到的，但是导出的时候都被当做异常数据处理到了。这已经满足博主想要的效果了，如有需要可以自行修改。

最后，如果你只是想要数据，并不想写代码，推荐：http://houyi.shenjian.io/?bd&utm=search 这个工具，博主简单用了一下，功能还行，而且是免费的。

相关阅读:
A Deep Dive Into Draggable and DragTarget in Flutter
使用joda-time工具类计算时间相差多少天，小时，分钟，秒
 XmlDocument.load 读文件报异常：文件正被其它线程使用，解决方法
 拼多多是怎么骗你的？
东北话中的满语
 唐郑国公魏征金口“斩龙台”梦斩泾河黄龙的传说
 Asp.Net Form表单控件的回车默认事件
 UpdatePanel 控件,客户端事件生命周期踩坑
 Javascript 严格模式(strict mode)详解
 代数、几何、分析各自的范畴
原文地址：https://www.cnblogs.com/yuanshen/p/12161441.html