hadoop的merge操作脚本

import math
import struct
import traceback
 
import numpy as np
 
 
def mapper():
    #filepath = os.environ["map_input_file"]
    #filename = "zhangpeng66"
    filepath = 'jianku_data'
    for line in sys.stdin:
        if "jianku_data" in filepath:
            line = line.rstrip("\n")
            tokens = line.split('\t')
            if len(tokens) < 13: 
                continue
            os_key = tokens[0]
            title=tokens[5]
            real_title=tokens[10]
            alt=tokens[7]
            ct0=tokens[12]
            print '\t'.join([os_key, title, real_title, alt, ct0])
 
def reducer():
    for line in sys.stdin:
        line = line.strip('\r\n')
        l_info = line.split('\t')
       
        os_key = l_info[0]
 
        for os_query in open(sys.argv[2], 'r'):
            os_query = os_query.strip('\n\r')
            if os_key == os_query:
                print(line)
                break
 
if __name__ == '__main__':
    if sys.argv[1] == 'map':
        mapper()
    elif sys.argv[1] == 'reduce':
        reducer()
    else:
        print >> sys.stderr, 'map or reduce, please.'

相关阅读:
环境变量学习（二）Mac 可设置环境变量的位置
环境变量学习（一）简介、查看
shell学习（二）安装shell环境
npm学习（十八）npm scripts 使用指南
nodemon学习（二）实战
nodemon学习（一）简介、安装、配置、使用
Error: listen EADDRINUSE 127.0.0.1:8888错误解决
树莓派创建wifi热点
JavaScript中的数据类型转换
Packstack 搭建 OpenStack 报 MariaDB 错误的处理

原文地址：https://www.cnblogs.com/douzujun/p/15529800.html