1,首先要确保hadoop上的python 版本和自己开发机器上最好是统一版本。
2,在hadoop上引入第三方库时,可以将job 依赖的所有第三方的third-party package都放进 ./lib 中
使用tar 打包 成 tgz格式(注意如果此处没有使用 -z而命名为tgz,使用--archives提交该文件的时候,会引起job的失败 )
3, --archives 参数 参考hadoop streaming的指南文档,会自动上传到job 的task目录并且自动解压缩,可以使用#表示解压缩后的文件夹名称
4,注意在python 脚本中添加sys.path.insert(0,'lib_Path') 把打包解压之后的lib路径添加进去。
5, 最后还要注意python脚本的第一行要写#!/usr/bin/env python 否则提示 import x server error!