• Python之pandas数据加载、存储


    Python之pandas数据加载、存储

    0. 输入与输出大致可分为三类:

    0.1 读取文本文件和其他更好效的磁盘存储格式
    2.2 使用数据库中的数据
    0.3 利用Web API操作网络资源
    

    1. 读取文本文件和其他更好效的磁盘存储格式

    pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
    1.1 pandas中的解析函数:
    
        read_csv        从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
        read_table      从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符("	")
        read_clipboard  读取剪贴板中的数据,可以看做read_table的剪贴板版。在将网页转换为表格时很有用
    
        其中,read_csv、read_table使用较多。
    
    1.2 逐块读取文本文件
        读取几行nrows
        逐块读取chunksize(行数)
    1.3 将数据写到文本格式
        利用DataFrame的to_csv
    

    2. 使用数据库中的数据

    2.1 使用关系型数据库中的数据,可以使用Python SQL驱动器(PyODBC、psycopg2、MySQLdb、pymssql等)
    2.2 使用非关系型数据库中的数据,如MongoDB,用其官方驱动器pymongo通过默认端口进行连接。
    

    3. 利用Web API操作网络资源

    3.1 应用lxml.html处理HTML
        步骤:
        1)利用urllib2将URL打开,然后由lxml解析得到数据流
        2)得到URL和链接文本
            使用文档根节点的findall方法以及一个XPath,以及个对象的get方法(针对URL)和text_content方法(针对显示文本)
        3)通过反复试验从文档中找到正确表格
        4)将所有步骤结合起来,将数据转换为一个DataFrame
    3.2 应用lxml.objectify处理XML
        1)使用lxml.objetify解析文件
        2)通过getroot得到XML文件的根节点
    3.3 使用网站通过JSOM及其他格式提供数据的公共的API
        使用requests包访问这些API
    
  • 相关阅读:
    PostgreSQL数据库逻辑复制实践
    CentOS7通过yum安装postgreSQL
    MongoDB动态建表方案(官方原生驱动)
    7大常用开源数据库利弊全对比
    错误:由于系统时间错误证书验证失败导致更新不成功
    deppin更新提示“由于没有公钥,无法验证下列签名”
    Debian 9 Vim无法使用鼠标右键复制 解决方法
    PHP版滑动时间窗口算法
    RabbitMQ PHP 代码示例
    创建或修改 docker 容器内部文件
  • 原文地址:https://www.cnblogs.com/lanzhi/p/6467839.html
Copyright © 2020-2023  润新知