• pandas 读取大文件 read_table C-engine CParserError: Error tokenizing data


    解决办法:

    pd_data = pd.read_table(comment_file,header=None,encoding='utf-8', engine='python')

    官网解析:

        engine : {‘c’, ‘python’}, optional

    Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

    1、

    iterator : boolean, default False

    Return TextFileReader object for iteration or getting chunks with get_chunk().

    或者通过chunk 获取

    pd_data = pd.read_table(comment_file,header=None,encoding='utf-8',iterator=True)
    # print(pd_data)
    # pd_data_t = pd.read_table(comment_file,header=None,encoding='utf-8', engine='python')
    # return;
    loop = True
    chunk_data = []
    chunk_size = 1024
    while loop:
    try:
    pd_data_tmp = pd_data.get_chunk(chunk_size)
    chunk_data.append(pd_data_tmp)
    except StopIteration:
    loop = False
    df = pd.concat(chunk_data,ignore_index=True)
  • 相关阅读:
    Python使用笔记20--网络操作小练习
    python使用笔记19--网络操作
    python使用笔记18--写日志
    python使用笔记17--异常处理
    python使用笔记16--操作redis
    列车调度
    三角形
    点亮灯笼
    数据读取
    codevs 1243 网络提速
  • 原文地址:https://www.cnblogs.com/cbugs/p/9829212.html
Copyright © 2020-2023  润新知