编写程序求每日最高最低气温,区间最高最低气温
- 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa
- 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)
- 解压数据集,并保存在文本文件中
- 对气象数据格式进行解析
- 编写map函数,reduce函数
- 将其权限作出相应修改
- 本机上测试运行代码
- 放到HDFS上运行
- 将之前爬取的文本文件上传到hdfs上
- 用Hadoop Streaming命令提交任务
- 查看运行结果
1-2:
由于我的学号是159,但是因为我所设的内存不够,所以我下载了2015年以9开头的几份数据压缩包以910,911,912为主:
3.解压数据集,并保存在文本文件中
4.对气象数据格式进行解析,打开文件的开头,查看气象数据集
通过分析第一段:
:1-4: 0195 ; 5-10:910660 表示:城市的气象站编号,不过我上网查了下好像没这个; 11-15:227012 是气象站标识符 ; 16-23:20150101 则是指2015年1月1日的气象记录; 24-27:0056 气候记录时间00:56分 ; 28:4 ; 29-34:+28202 纬度(1000倍)大概是北纬28.2度 ; 35-41:-177381 经度(1000倍)大概是东经177度;
42-46:FM-15 ; 47-51 :+0004 海拔(米); 52-56:99999; 57-60:V020 ; 61-63:200 风向;64::1;65:N 质量代码;。。。。。88-92:+0227 空气温度(摄氏度)
5.
编写map函数,reduce函数
将其权限作出相应修改
本机上测试运行代码
放到HDFS上运行
将之前爬取的文本文件上传到hdfs上
用Hadoop Streaming命令提交任务
查看运行结果