爬虫与Python：（四）爬虫进阶扩展之Pandas——5.CSV文件

1. 定义

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。

Pandas 可以很方便的处理 CSV 文件，本文以 nba.csv 为例，你可以下载 nba.csv 或打开 nba.csv 查看。(接下来的例子，我将csv放在了同名文件夹下)

2. 读取CSV文件

1 df = pd.read_csv('nba.csv')
2 print(df.to_string())   #to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替。

3. 存储CSV文件

我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件。

 1 import pandas as pd
 2 
 3 # 三个字段 name, site, age
 4 nme = ["Google", "Runoob", "Taobao", "Wiki"]
 5 st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
 6 ag = [90, 40, 80, 98]
 7 
 8 # 字典
 9 dict = {'name': nme, 'site': st, 'age': ag}
10 
11 df = pd.DataFrame(dict)
12 
13 # 保存 dataframe
14 df.to_csv('site.csv')

执行成功后，我们打开 site.csv 文件，显示结果如下：

4. 数据处理

4.1 head()

head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行。

1 import pandas as pd
2 
3 # head() 读取前5行
4 df = pd.read_csv('nba.csv')
5 print(df.head())

输出结果为：

            Name            Team  Number  ... Weight            College     Salary
0  Avery Bradley  Boston Celtics     0.0  ...  180.0              Texas  7730337.0
1    Jae Crowder  Boston Celtics    99.0  ...  235.0          Marquette  6796117.0
2   John Holland  Boston Celtics    30.0  ...  205.0  Boston University        NaN
3    R.J. Hunter  Boston Celtics    28.0  ...  185.0      Georgia State  1148640.0
4  Jonas Jerebko  Boston Celtics     8.0  ...  231.0                NaN  5000000.0

索引，head()读取前10行的方法为：

1 import pandas as pd
2 
3 # head() 读取前10行
4 df = pd.read_csv('nba.csv')
5 print(df.head(10))  # 不填，默认5行

4.2 tail()

tail( n ) 方法用于读取尾部的n行。如果不填参数 n ，默认返回 5 行，空行各个字段的值返回 NaN。

1 import pandas as pd
2 
3 # 读取尾部的n行
4 df = pd.read_csv('nba.csv')
5 print(df.tail(10))

4.3 info()

info()方法返回表的基本信息：

import pandas as pd

# 返回表的基本信息
df = pd.read_csv('nba.csv')
print(df.info())

输出结果为：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457          # 行数，458 行，第一行编号为 0
Data columns (total 9 columns):            # 列数，9列
 #   Column    Non-Null Count  Dtype       # 各列的数据类型
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   373 non-null    object         # non-null，意思为非空的数据    
 8   Salary    446 non-null    float64
dtypes: float64(4), object(5)                 # 类型
memory usage: 23.3+ KB
None

5. 参考网址

Pandas CSV文件：https://www.runoob.com/pandas/pandas-csv-file.html

有志者，事竟成，破釜沉舟，百二秦关终属楚；苦心人，天不负，卧薪尝胆，三千越甲可吞吴。

相关阅读:
关于 a 标签 jquery的trigger("click"),无法触发问题。
浏览器上传文件，存到oracle数据库示例。
关于java的Long 类型到js丢失精度的问题
 java 自定义注解，并使用示例
 关于重置功能(type="reset")的相关问题
 校验键盘上中英文状态下所有的特殊字符(排除下划线所在的按键)
VS Code 设置取消打开文件目录的自动定位跟踪功能。
$.extend(x,y); 函数用法介绍。
用jquery的.val() 给具有style="display:none;" 属性的标签写值的问题。
10.我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形，总共有多少种方法？
原文地址：https://www.cnblogs.com/luyj00436/p/15472483.html