待处理的数据是图片的多属性标注,用Pandas库可以非常方便进行各种形式的处理。
1. txt的读取
使用pandas.read_csv
函数
'sep' 是分隔符;
'header' 是否第一行作为DataFrame的column
'index_col' 是否把某一列作为DataFrame的Index
2. 去重
pandas.drop_duplicates
函数
3. 保存txt
pandas.to_csv
函数
整体代码
import pandas as pd
# 读取txt
train_data = pd.read_csv('/home/geoffrey/桌面/train.txt.backup',
sep=' ',
encoding='utf-8',
# index_col=0,
header=None)
# 删除特定行(包含‘打伞’的行)
train_data[train_data[0].apply(lambda x: '打伞' not in x)]
# 去重
train_data.drop_duplicates(inplace=True)
train_data.set_index(0, inplace=True)
# 写入txt
train_data.to_csv('/home/geoffrey/桌面/test1.txt',
sep=' ',
encoding='utf-8',
header=None)