之前申请的数据科学项目让我就3个GB的csv数据进行分析(强烈怀疑赞助公司给钱使用免费人工),R直接崩溃,我试都没去试就知道了。于是尝试将整个文档导入MATLAB,MATLAB说文档太大了,一下子读不完,Java不给力。然后又尝试了导入MySQL Workbench,结果忘了localhost的根密码,只能连上沃顿SQL培训课给的Server。好不容易选定了一个之前上课用过的Table,于是带入了以下代码:
LOAD DATA LOCAL INFILE 'F:/.../trip_data_3.csv' INTO TABLE test.dummy FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY ' ';
让代码跑一会儿,于是出去取了网上订的色拉。回到家,收到error 1064一条,弃疗。
任务二是自己找一个公开的数据源,设计一个对于“商业和用户”有实用价值的数据分析项目。于是我在亚马逊的Cloud Service上找到了一个日本人口统计的数据,用Microsoft 2010 Excel打开其中一份数据的时候,发现里面所有的日语汉字和假名都变成了乱码。不安。下载了Office 2010 language pack,现在正在安装中,估计要重启。
后来发现其实和Language Pack没关系。只要打开Microsoft Office -> Microsoft Office 2010工具 -> Microsoft Office 2010语言首选项,把默认中文(中国)改成日语。然后再打开刚才都是乱码的Excel表格,乱码立刻变成了美丽的汉字和假名。
但是第一个问题还尚待解决。。。。。。偶麦嘎程序媛的生活。