Python数据分析基础——读写CSV文件2

2.2筛选特定的行：

行中的值满足某个条件
行中的值属于某个集合
行中的值匹配于某个模式（即：正则表达式）

　　2.2.1：行中的值满足于某个条件：

基础python版：

 1 #！/usr/bin/env python3　　
 2 import csv
 3 import sys
 4 
 5 input_file = sys.argv[1]
 6 output_file = sys.argv[2]
 7 
 8 with open(input_file, 'r', newline = '') as csv_in_file:
 9     with open(output_file, 'w', newline = '') as csv_out_file:
10         filereader = csv.reader(csv_in_file)
11         filewriter = csv.writer(csv_out_file)
12         header = next(filereader)　　# 使用CSV模块的next函数读出输入文件的第一行
13         filewriter.writerow(header)　　# 将标题写入输出文件
14         for row_list in filereader:
15             supplier = str(row_list[0]).strip()　　# 取出每行数据中的供应商名字，赋值给supplier变量
16             cost = str(row_list[3]).strip('$').replace(',', '')　　# 使用列表索引
17             if supplier =='Supplier Z' or float(cost) > 600.0:
18                 filewriter.writerow(row_list)

pandas版：

#!/usr/bin/env python3

import pandas as pd
import sys


input_file = sys.argv[1]
output_file = sys.argv[2]

data_frame = pd.read_csv(input_file)

data_frame['Cost'] = data_frame['Cost'] = data_frame['Cost'].str.strip('$').astype(float)
data_frame_value_meets_condition = data_frame.loc[(data_frame['Supplier Name'].str.contains('Z')) | (data_frame['Cost'] > 600.0), :]

data_frame_value_meets_condition.to_csv(output_file, index = False)

　　　　2.2.2：行中的值属于某个集合：

基础python：

 1 #!/usr/bin/env python3　　#　　需求目的：保留那些购买日属于['1/20/14'，'1/30/2014']
 2 import csv
 3 import sys
 4 
 5 input_file = sys.argv[1]
 6 output_file = sys.argv[2]
 7 
 8 important_dates = ['1/20/2014', '1/30/2014']　　#　　创建了一个列表的名为important_dates的集合，important_dates是一个列表变量，它就是要属于的集合
 9 
10 with open(input_file, 'r', newline = ' ') as csv_in_file:
11     with open(output_file, 'w', newline = ' ') as csv_out_file:
12         filereader = csv.reader(csv_in_file)　　#　　使用CSV模块，的reader函数，创建一个文件读取对象，名为filereader，它可以用于读取文章中的行
13         filewriter = csv.writer(csv_out_file)　　#　　使用CSV模块的writer函数，创建了一个文件输出对象，名为filewriter,他可以用于将这个对象的数据写入输出文件
14         header = next(filereader)　　#　　使用CSV模块的next函数，读出输入文件的第一行
15         filewriter.writerow(header)　　#　　将header——标题行，写入输出文件
16         for row_list in filereader:　　#　　遍历读取的文章的每一行
17             a_date = row_list[4]　　#　　得到每一行的第5列信息，即为每一行的购买的信息，并将其赋值给变量a_date；这里使用的是索引值4
18             if a_date in important_dates:　　#　　判断变量a_date是否属于important_dates这个集合
19                 filewriter.writerow(row_list)　　#　　如果是，则将该行数据写入输出文件

pandas：

 1 #!/usr/bin/env python3
 2 
 3 import pandas as pd
 4 import sys
 5 
 6 input_file = sys.argv[1]
 7 output_file = sys.argv[2]
 8 
 9 data_frame = pd.read_csv(input_file)　　#　　读取输入文件，将其读取成dataframe的形式
10 data_frame_value_in_set = data_frame.loc[data_frame['Purchase Date'].isin(important_dates), :]　　#　　pandas的简洁命令：isin()
11 
12 data_frame_value_in_set.to_csv(output_file,index = False)　　#　　将data_frame_value_in_set的变量值，转换成CSV的形式，写入到输出文件中

行中的值，匹配于某个正则表达式:

基础python

　　　　
 1 #!/usr/bin/env python3
 2 import csv
 3 import re　　#　　导入正则表达式模块（re）
 4 import sys
 5 input_file = sys.argv[1]
 6 output_file = sys.argv[2]
 7 pattern = re.compile(r'(?P<my_pattern_group>^001-.*)', re.I)　　#   使用re模块的compile函数，创建一个名为pattern的正则表达式的变量
 8 with open(input_file, 'r', newline = ' ') as csv_in_file:
 9     with open(output_file, 'w', newline = ' ') as csv_in_file:
10         filereader = csv.reader(csv_in_file)
11         filewriter = csv.writer(csv_out_file)
12         header = next(filereader)
13         fliewriter.writerow（header）
14         for row_list in filereader:
15             invoice_number = row_list[1]     #    
16             if pattern.search(invoice_number):   #   使用re模块的search函数在invoice_number的值中寻找模式
17                 filewriter.writerow(row_list)　　 #   如果模式出现在invoice_number中，就将这行内容写入输出文件中

pandas

 1 #！/usr/bin/env python3
 2 
 3 import pandas as pd
 4 import sys
 5 
 6 input_file = sys.argv[1]
 7 output_file = sys.argv[2]
 8 
 9 data_frame = pd.read_csv(input_file)
10 data_frame_value_matches_pattern = data_frame.loc[data_frame['Invoice Number'].str.startswith("001-"), :]
11 data_frame_value_matches_pattern.to_csv(output_file, index = False)

相关阅读:
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫 2014-05-23 14:07 515人阅读评论(0) 收藏
 【搜索引擎基础知识3】搜索引擎相关开源项目及网站 2014-05-23 11:44 757人阅读评论(0) 收藏
 HtmlParser基础教程分类： C_OHTERS 2014-05-22 11:33 1649人阅读评论(1) 收藏
 【搜索引擎Jediael开发4】V0.01完整代码分类： H_HISTORY 2014-05-21 21:35 470人阅读评论(0) 收藏
 学习金字塔分类： T_TALENT 2014-05-21 09:25 331人阅读评论(0) 收藏
 【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接分类： H3_NUTCH 2014-05-20 20:50 1211人阅读评论(0) 收藏
 Java解析HTML之HTMLParser使用与详解分类： C_OHTERS 2014-05-19 21:46 2309人阅读评论(0) 收藏
 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件分类： C_OHTERS 2014-05-19 15:07 1108人阅读评论(0) 收藏
 HttpClient基础教程分类： C_OHTERS 2014-05-18 23:23 2600人阅读评论(0) 收藏
 【搜索引擎基础知识2】网络爬虫的介绍 2014-05-16 14:10 395人阅读评论(0) 收藏
原文地址：https://www.cnblogs.com/tommyngx/p/8706417.html