• 爬虫与Python:(四)爬虫进阶扩展之Pandas——5.CSV文件


    1. 定义

    CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。

    CSV 是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。

    Pandas 可以很方便的处理 CSV 文件,本文以 nba.csv 为例,你可以下载 nba.csv打开 nba.csv 查看。(接下来的例子,我将csv放在了同名文件夹下)

    2. 读取CSV文件

    1 df = pd.read_csv('nba.csv')
    2 print(df.to_string())   #to_string() 用于返回 DataFrame 类型的数据,如果不使用该函数,则输出结果为数据的前面 5 行和末尾 5 行,中间部分以 ... 代替。

    3. 存储CSV文件

    我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件

     1 import pandas as pd
     2 
     3 # 三个字段 name, site, age
     4 nme = ["Google", "Runoob", "Taobao", "Wiki"]
     5 st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
     6 ag = [90, 40, 80, 98]
     7 
     8 # 字典
     9 dict = {'name': nme, 'site': st, 'age': ag}
    10 
    11 df = pd.DataFrame(dict)
    12 
    13 # 保存 dataframe
    14 df.to_csv('site.csv')

    执行成功后,我们打开 site.csv 文件,显示结果如下:

    4. 数据处理

    4.1 head()

     head( n ) 方法用于读取前面的 n 行,如果不填参数 n ,默认返回 5 行。

    1 import pandas as pd
    2 
    3 # head() 读取前5行
    4 df = pd.read_csv('nba.csv')
    5 print(df.head())

    输出结果为:

                Name            Team  Number  ... Weight            College     Salary
    0  Avery Bradley  Boston Celtics     0.0  ...  180.0              Texas  7730337.0
    1    Jae Crowder  Boston Celtics    99.0  ...  235.0          Marquette  6796117.0
    2   John Holland  Boston Celtics    30.0  ...  205.0  Boston University        NaN
    3    R.J. Hunter  Boston Celtics    28.0  ...  185.0      Georgia State  1148640.0
    4  Jonas Jerebko  Boston Celtics     8.0  ...  231.0                NaN  5000000.0

    索引,head()读取前10行的方法为:

    1 import pandas as pd
    2 
    3 # head() 读取前10行
    4 df = pd.read_csv('nba.csv')
    5 print(df.head(10))  # 不填,默认5行

    4.2 tail()

     tail( n ) 方法用于读取尾部的n行。如果不填参数 n ,默认返回 5 行,空行各个字段的值返回 NaN。

    1 import pandas as pd
    2 
    3 # 读取尾部的n行
    4 df = pd.read_csv('nba.csv')
    5 print(df.tail(10))

    4.3 info()

     info()方法 返回表的基本信息:

    import pandas as pd
    
    # 返回表的基本信息
    df = pd.read_csv('nba.csv')
    print(df.info())

    输出结果为:

    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 458 entries, 0 to 457          # 行数,458 行,第一行编号为 0
    Data columns (total 9 columns):            # 列数,9列
     #   Column    Non-Null Count  Dtype       # 各列的数据类型
    ---  ------    --------------  -----  
     0   Name      457 non-null    object 
     1   Team      457 non-null    object 
     2   Number    457 non-null    float64
     3   Position  457 non-null    object 
     4   Age       457 non-null    float64
     5   Height    457 non-null    object 
     6   Weight    457 non-null    float64
     7   College   373 non-null    object         # non-null,意思为非空的数据    
     8   Salary    446 non-null    float64
    dtypes: float64(4), object(5)                 # 类型
    memory usage: 23.3+ KB
    None

    5. 参考网址

    有志者,事竟成,破釜沉舟,百二秦关终属楚; 苦心人,天不负,卧薪尝胆,三千越甲可吞吴。
  • 相关阅读:
    Using Subversion and ViewCVS on Solaris 10
    Solaris开放源代码了!
    小笨霖英语笔记本(0)
    How to start CDE/JDS with xinit command
    英译汉练习:Solaris 10进入Linux领地
    UNIX/LINUX 平台可执行文件格式分析
    小笨霖英语笔记本(2)
    小笨霖英语笔记本(3)
    小笨霖英语笔记本(1)
    魔鬼城雅丹地貌
  • 原文地址:https://www.cnblogs.com/luyj00436/p/15472483.html
Copyright © 2020-2023  润新知