• 用Python创建/读取/导出表格数据文件


    一、创建数据集

    R语言中创建或导入数据框是非常常见的,只需要一个data.frame的命令就可以了,这个是R语言的基本命令。

    我不习惯用Python进行表格式的数据操作和分析,这次和阿雷一起学习如何在Python中使用pandas库来进行基本的数据框操作。

    首先当然是要安装pandas库,这个在上一篇文章中已经写过了,

    其次就是要加载这个库,python中可以使用命令:

    1、使用DataFrame()命令,来创建数据框(这个命令的含义是,括号里面的数据类型,捆绑成数据框的形式)

    2. 我这里使用的是字典,索引‘a’和‘b’分别可以看成是列名,然后每一列下面的值就是序列,使用命令range生成,也就是值包含了很多值(因为range生成的不只是一个数)

    3. 我还想试试字典里面的值不是range,而是列表

    经过实践,这样也是可以的!! 

    4. 在Rstudio这样的编译器中,可以很方便地可视化看到我们的数据结构是如何的,这里我们也可以。直接双击右侧变量管理中的value值,就可以看到啦

    这样一来,我觉得Spyder的编译器和Studio也很类似,编译环境变得异常友好起来!

    二、外部数据集导入

     学习了如何创建数据集,下面开始学习数据集如何导入。

    1. 导入的文件必须是存放在Python当前的路径

    2. 如何查看Python当前的路径:import os之后,os.getcwd(),也可以使用ios.chdir()更换文件所在路径

    3.使用pd.read_csv('文件名及后缀',encoding = 'dbk') 这里如果你的表格有中文,要加一个参数encoding = 'gbk',如果不是的话,那么就不必了,如果操作系统是MAC的话,就换成utf-8

    4.如果是exlce文件,可以使用pd.read_excel('文件名.xlsx',encoding = 'gbk')

     三、数据导出

    假设一个数据df2已经存放在了Python环境中,使用df.to_csv('导出后的文件名和后缀'),就可以了

  • 相关阅读:
    三种常用的迭代搜索优化方法
    三种常用的迭代搜索优化方法
    颜色空间总结
    颜色空间总结
    卷积神经网络(CNN)
    卷积神经网络(CNN)
    在沉睡中站立起来
    在沉睡中站立起来
    Terence’s Stuff: Why do we do research?
    Terence’s Stuff: Why do we do research?
  • 原文地址:https://www.cnblogs.com/candy3026/p/9099163.html
Copyright © 2020-2023  润新知