• pandas的read_csv函数


    pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

    filepath_or_buffer:

    文件的地址,可以是url。

    sep:

    分隔符的指定。

    delimiter:

    str,定界符,如果指定该参数,sep参数失效。

    delim_whitespace :boolean,

    default False. 指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用,等效于设定sep='s+'。

    header :

    int or list of ints, default ‘infer’ ,指定行数用来作为列名。如果文件中没有列名,则默认为0,否则设置为None。

    names :

    array-like, default None 用于结果的列名列表,对各列重命名,即添加表头。 如数据有表头,但想用新的表头,可以设置header=0,names=['a','b']实现表头定制。

    index_col :

    int or sequence or False, default None 用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。 可使用index_col=[0,1]来指定文件中的第1和2列为索引列。 

    usecols :

    array-like, default None 返回一个数据子集,即选取某几列,不读取整个文件的内容,有助于加快速度和降低内存。 usecols=[1,2]或usercols=['a','b'] 

    squeeze :

    boolean, default False 如果文件只包含一列,则返回一个Series。

    prefix :

    str, default None 在没有列标题时,给列添加前缀。例如:添加‘X’ 成为 X0, X1, ... 

    mangle_dupe_cols :

    boolean, default True 重复的列,将‘X’...’X’表示为‘X.0’...’X.N’。如果设定为False则会将所有重名列覆盖。 

    dtype :

    Type name or dict of column -> type, default None 每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}。

    engine :

    {‘c’, ‘python’}, optional 使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。

    converters :

    dict, default None 列转换函数的字典。key可以是列名或者列的序号。 

    日期类型相关参数:

    parse_dates :

    boolean or list of ints or names or list of lists or dict, default False 。

    boolean. True -> 解析索引 list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列;

    list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用

    dict, e.g. {‘foo’ : [1, 3]} -> 将1,3列合并,并给合并后的列起名为"foo"。

    示例:

    df=pd.read_csv(file_path,parse_dates=['time1','time2']), 把time1和time2两列解析为日期格式。

    这里不得不说,很遗憾中文不行,比如‘4月5日’这种格式就不能解析。

    infer_datetime_format :

    boolean, default False 如果设定为True并且parse_dates 可用,那么pandas将尝试转换为日期类型,如果可以转换,转换方法并解析。 在某些情况下会快5~10倍。

    keep_date_col :

    boolean, default False 如果连接多列解析日期,则保持参与连接的列。默认为False。 

    date_parser :

    function, default None 于解析日期的函数,默认使用dateutil.parser.parser来做转换。

    Pandas尝试使用三种不同的方式解析,如果遇到问题则使用下一种方式。

    1.使用一个或者多个arrays(由parse_dates指定)作为参数;

    2.连接指定多列字符串作为一个列作为参数;

    3.每行调用一次date_parser函数来解析一个或者多个字符串(由parse_dates指定)作为参数。

    dayfirst :

    boolean, default False DD/MM格式的日期类型。

    转载:https://blog.csdn.net/liuweiyuxiang/article/details/78471036

  • 相关阅读:
    Python参考资料汇总
    Redis发布/订阅
    Redis读书笔记之API的理解和使用
    三、Dubbo源码学习笔记(一)之 Spring容器启动
    利用VMware在虚拟机上安装Zookeeper集群
    二、Dubbo相关文献链接
    一、Dubbo初体验
    @Retention小记
    EasyUI知识点杂记
    ---Mybatis3学习笔记(2)补充
  • 原文地址:https://www.cnblogs.com/wzdLY/p/9693898.html
Copyright © 2020-2023  润新知