• 数据的读取与存储


    CSV文件的读取

    pandas库提供了将表格型数据读取为DataFrame数据结构的函数

    文本解析函数:

    read_csv                      从文件中加载带分隔符的数据,默认分隔符为逗号

    read_table                   从文件中加载带分隔符的数据,默认分隔符为制表符

    写入csv文件

     

    使用read_csv读取csv文件

     

    使用read_table读取csv文件

     

    指定列作为索引

    一级列索引

    默认情况下。读取的DataFrame的行索引是从0开始计数。但是可以自由指定列为行索引。例如:通过index_col参数指定id列为行索引。

     

    多级列索引

    数据源:

     

    层次化处理:

     

    标题行设置

    如果默认情况下没有标题行,则会指定第一行为标题行,这是不符合实际情况的:

     

    直接读取无标题数据

     

    通过header参数分配默认的标题行

     

    通过names参数指定列名

     

    自定义读取

    跳过指定的行 skiprows()

     

     

    通过nrows参数,可以选择只读取部分参数

     

    可通过usecols参数进行部分列的选取

     

    使用info()函数查看详细信息

     

    使用chunksize参数,可逐步读取文件,通过迭代可以给指定列进行计数

     

    read_csv的参数列表

    path           文件的路径

    sep            字段隔开的字符序列,也可以使用正则表达式

    header       指定列索引。默认为0(第1行)

    index_col        用于行索引的列名或列编号

    names       指定列索引的列名

    skiprows      需要忽略的行数(从文件开始处算)

    nrows        需要读取的行数(从文件开始处算)

    chunksize            文件块的大小

    usecols                指定读取的列

    TXT文件的读取

    通过read_table函数中的sep参数进行行分隔符的指定

     

     

    使用正则表达式处理分隔符的问题

     

     

    文本数据的存储

    将数据以默认逗号分隔的CSV文件存储

    通过sep参数指定存储的分隔符

     

     

    存储数据的时候不保存index或者hader索引

     

    JSON数据的读取和存储

    Excel数据的读取和存储

    读取

     

     

    存储

     

     

    数据库的存储和读取

    连接数据库

     

    读取数据库

     

    存储数据库

    通过to_sql函数实现DataFrame数据存储为MySQL数据,首先查看to_sql的参数:

    df.to_sql(name,con,flavor=None,schema=None,if_exists="fail",index="True",
    
    index_label=None,chunksize=None,dtype=None)

    其中:

    name参数为存储的表名

    con参数为连接的数据库

    if_exists参数用于判断是否有重复表名。

          其中fail表示如果有重复表名就不保存,

          replace表示替换重复表名,

       append表示在该表中继续插入数据。

     

    import pandas as pd
    
    from sqlalchemy import create_engine
    
    engine=create_engine('mysql+pymysql://用户名:密码@IP地址:3306/mypython?charset=utf8', echo=False)
    
    df.to_sql('out', engine, if_exists = 'append', index=False)

    Web数据的读取

    实际上是爬虫

    学习中,博客都是自己学习用的笔记,持续更新改正。。。
  • 相关阅读:
    python基础-迭代器,闭包
    python基础-练习题
    python基础-函数的进阶
    python基础-函数
    python实现十大经典算法
    Auto-Encoders实战
    Variational Auto-Encoders原理
    Reparameterization Trick
    Adversarial Auto-Encoders
    AutoEncoders变种
  • 原文地址:https://www.cnblogs.com/Tunan-Ki/p/11752870.html
Copyright © 2020-2023  润新知