• 一. 文件的读取


    csv类型读取

    命令:pd.read_csv()
    常用参数:

    • path
      文件路径,可以是网络数据

    • encoding
      指定编码。
      pd.read_csv('example.csv', encoding='gb2312')

    • sep
      指定行中各字段的分隔符,使用read_csv()时,默认就是逗号。

    • header
      指定哪一行作为列索引,默认是0,即第一行。
      当你指定None时,pandas会默认给出数字索引。
      需要注意的是,如果指定了非第一行,那么你所指定的这一行之前的数据将被忽略
      pd.read_csv('example.csv', header=None, encoding='gb2312')

    • index_col
      指定哪一列作为行索引,pandas默认的行索引是从0开始一直向下递增,但是可以指定某一列作为行的索引,这里的指定可以是数字形式,也可以具体给出列的名称。

      pd.read_csv('example.csv', index_col=0)  # 指定第0列
      pd.read_csv('example.csv', index_col='company')  # 指定'company'列作为索引
      
    • names
      自己添加列索引,是一个列表形式。
      pd.read_csv('example.csv', names=['公司','职位', '薪资', '地点'])
      如果原始数据已经带有索引,而你想要重新自定义一个索引,可以添加一个header=0参数, 意思就是使用names这个新的索引,代替原来的索引。

    • parse_dates
      将某一列转换成日期格式

    • skiprows
      指定忽略的行数或者需要跳过的行号。
      如果是一个数字,则第0行开始,忽略前面的那些行,如果是一个列表,则会忽略具体的某些行。

    • na_values
      如果na_values后面跟一个列表,列表中出现的数据将会变成NaN。
      如果na_values后面跟一个字典,字典的键是列名,值是你想变成Nan的数据。

    • comment
      将注释信息从行尾拆分出去的字符。(一个或多个)

    • nrows
      读取的行数。(从文件开始处算起)

    • thousands
      指定千位分隔符,如','。

    • chunksize
      文件块的大小,在逐块读取文件时使用
      pd.read_csv('example.csv', chunksize=10)

    • iterator
      返回一个TextParser以便逐块读取文件。

    excel类型读取

    命令:pd.read_excel()
    参数:

    • sheet_name
      指定excel的工作表

    • converters
      将单元格进行转换,可以使用函数。

    csv类型写入

    命令:df.to_csv()
    参数:

    • index
      默认情况下,会将index索引一起写入,但是可以指定参数,index=False来取消写入索引。

    • header
      指定为False将不会写入columns索引

    • columns
      可以用columns=[]来指定写入的列。

    excel类型写入

    命令:pd.to_excel()
    参数:

    • sheet_name
      指定excel的工作表

    • index
      为False时,则不写入index索引

    • startrow
      指定从excel的第几行开始,这里指的是excel工作表第几行,而不是我们的df数据。比如,startrow=1,那么打开excel你会发现,开始的行是2。

    • startcol
      同上,这里是列,比如startcol=1,那么excel将会从B列开始写。

    • 将两个DataFrame写入同一个excel文件的两个不同的sheet,方法如下

    with pd.ExcelWriter('Excelname.xlsx') as writer:
        df1.to_excel(writer, sheet_name='sheet1')
        df2.to_excel(writer, sheet_name='sheet2')
    
  • 相关阅读:
    Working with Deployment Configurations in CodeDeploy
    ECS 容器实例生命周期
    设置 API Gateway 金丝雀版本部署
    Elastic Beanstalk 滚动环境配置更新
    Kinesis Data Firehose 中的数据保护
    为 API Gateway REST API 资源启用 CORS
    高级 AWS Elastic Beanstalk 环境配置
    Amazon SWF Actors
    AWS CloudFormation 模板结构
    字符编码
  • 原文地址:https://www.cnblogs.com/cnkai/p/7444656.html
Copyright © 2020-2023  润新知