4 日期值处理
将 release_date 列转换为日期类型
5 筛选数据
票房、预算、受欢迎程度、评分为0的数据应该去除
评分人数过低的电影,评分不具有统计意义,筛选评分人数大于50的数据
6 json 数据转换 **说明:**genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 json 数据,需要处理为列表进行分析。
处理方法: json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串
7 数据备份
#数据备份
org_df = df.copy()
df.reset_index().to_csv("TMDB_5000_Movie_Dataset_Cleaned.csv")