• 解决采集知乎数据时由于账号被封遗漏的账号重爬问题(python代码)


    '''一、最笨的办法了
    ###############################################################
    #为了处理由于账号被封而没跑到的问题id进行以下两步:
    ###############################################################
    #第一步:将出现403错误的问题id提取出来
    #HTTPSConnectionPool(host='api.zhihu.com', port=443): Max retries exceeded with url: /questions/274001355 (Caused by ResponseError('too many 403 error responses',))
    df = pd.read_excel('errors' + '.xlsx')#pycharm报错信息筛选出来403异常
    a = df['id']#提取为df
    w = writeXLS.WriteXLS(filename='news' + '.xls', sheet_num=0)#打开表格
    rows=0
    for i in a:
    str=(i.split('/')[2])#输出所有包含知乎问题id的字符串
    #如:274001355 (Caused by ResponseError('too many 403 error responses',))
    print(str)
    ###############################################################
    #第二步:将输出的信息复制到errors.txt内
    f=open('errors' + '.txt')
    #提取问题id写入 news.xls文件
    for i in f.readlines():
    m=(i.split(' (')[0])
    b = []
    b.append(m)
    w.write_row(row=rows, colon=0, items=b)
    w.save_table()
    rows+=1
    ###############################################################'''

    二、将出现403异常的id存入问题id列表
    except Exception as e:#捕获异常
    print(e)
    stt = 'too many 403 error responses'
    if stt in str(e):#若捕获的的异常为403则将问题id(i)放入id列表的末尾,以便于遗漏后继续跑
    topic_list.append(i)#每次放入id列表的末尾(若topic_list不是列表,用list()对该对象进行转换)




  • 相关阅读:
    Linux下安装Tomcat服务器和部署Web应用
    全链路压测
    性能测试二八原则,响应时间2/5/8原则
    chromedriver、firefox-geckodriver、iedriver下载链接
    selenium3+python3环境搭建
    SQL注入原理
    loadrunner之header相关,token等
    安全测试——利用Burpsuite密码爆破(Intruder入侵)
    性能测试之系统架构分析
    性能测试性能分析与调优的原理
  • 原文地址:https://www.cnblogs.com/kjkj/p/9003512.html
Copyright © 2020-2023  润新知