hadoop 上跑 python job 引入第三方依赖的解决办法 - 润新知

hadoop 上跑 python job 引入第三方依赖的解决办法

1,首先要确保hadoop上的python 版本和自己开发机器上最好是统一版本。

2,在hadoop上引入第三方库时，可以将job 依赖的所有第三方的third-party package都放进 ./lib 中

使用tar 打包成 tgz格式（注意如果此处没有使用 -z而命名为tgz，使用--archives提交该文件的时候，会引起job的失败）

3, --archives 参数参考hadoop streaming的指南文档，会自动上传到job 的task目录并且自动解压缩，可以使用#表示解压缩后的文件夹名称

4，注意在python 脚本中添加sys.path.insert(0,'lib_Path') 把打包解压之后的lib路径添加进去。

5，最后还要注意python脚本的第一行要写#!/usr/bin/env python 否则提示 import x server error！
相关阅读:
python enhanced generator － coroutine
python yield generator 详解
 gunicorn syncworker 源码解析
 gunicorn 信号处理（SIGHUP，SIGUSR2）
gunicorn Arbiter 源码解析
 gunicorn 简介
 kafka+zookeeper环境配置（linux环境单机版）
在Linux中安装JDK的步骤
 Kafka安装及部署
 Zookeeper 安装和配置
原文地址：https://www.cnblogs.com/harveyaot/p/3205403.html

Copyright © 2020-2023 润新知