dataframe可以实现很多操作,但是存储到本地的时候,只能存 parquest格式

需要存储源格式,需要转换为rdd类型

将dataframe中的每一行都map成有逗号相连的string,就变为了一个rdd