project:ChainOD_demo
输入:0803-0830出行链
输出:
- origin:28天×48段/天=1344段(0.5小时作为一个time bin)//两个部分
- destination:同样
过程:首先将进站时间戳处理成97-1440范围内的数(因为是从3号开始的),即根据时间戳就能知道这条记录在哪个段内,并将reducer的数目设置为1500,同一个时间段的记录放在同一个reducer里面,这样就能每个reduce输出一个文件,而这个文件是在同一个时间段内的。
project:ChainOD_demo
输入:0803-0830出行链
输出:
过程:首先将进站时间戳处理成97-1440范围内的数(因为是从3号开始的),即根据时间戳就能知道这条记录在哪个段内,并将reducer的数目设置为1500,同一个时间段的记录放在同一个reducer里面,这样就能每个reduce输出一个文件,而这个文件是在同一个时间段内的。