1、故障描述
这是运行在公有云上的一套Hadoop集群,有一个公网IP将部分服务的端口映射出来供办公室访问。
数据分析师报告说:在HUE上面浏览HDFS文件,点击"download"准备下载时,会被重定向到 http://10.0.34.11:4032/webhdfs/v1/xk/logs/prd/game/xxxxx 类似的内网IP并且浏览器报错ERR_CONNECTION_TIMED_OUT,影响文件无法下载
2、思考与分析
从重定向的地址来看,是HUE调用了webhdfs的接口,但是这个地址被配置成了局域网IP,而办公室是不能直接访问服务的内网的,所以就会超时报错。
3、解决方法
a)将webhdfs的IP、端口映射到公网,将设置安全组,只允许几个办公区的IP可以访问
过程略……
b)修改HUE的配置文件,将参数webhdfs_url的值改成已映射的公网IP
cd /usr/local/service/hue/desktop/conf && cp pseudo-distributed.ini pseudo-distributed.ini.bak.20200114
vim pseudo-distributed.ini 将参数webhdfs_url的值改成已映射的公网IP
重启HUE服务
4、扩展
通过HUE,一次只能下载一个文件,如果需要一次性下载多个文件的话,可以考虑使用hdfs命令将文件/目录下载到Linux服务器上,例如:
hadoop dfs -get /xk/logs/prd/game/xxxx/xxxx/11 ~/tmp_dir/