随着我司的应用都开始容器化,相应的ETL流程也需要迁移到流程中。常规的SQL和shell脚本迁移之后执行基本没有问题,主要的问题在于数据接入使用kettle的场景下,kettle启动异常。
kettle部署方式
kettle挂载在某台主机的路径下,该路径映射到一个装有Azkaban容器的路径,日常任务通过Azkaban执行pan.sh
导入各种源数据。
执行遇到的问题
spoon.sh: line 230: 18976 Killed "$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}" 2>&1
分析和解决
因为pan.sh
执行时会调用spoon.sh
,所以直接从错误提示的spoon.sh
的230行开始分析。
225 OS=`uname -s | tr '[:upper:]' '[:lower:]'`
226 if [ $OS = "linux" ]; then
227 (((("$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}" 2>&1; echo $? >&3 ) | grep -viE "Gtk-WARNING|GLib-GObject|GLib-CRITICAL|^$" >&4 ) 3>&1)| inputtoexitstatus ) 4>&1
228 else
229 "$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}"
230 fi
231 EXIT_CODE=$?
从这段shell代码看,报错的信息时第229行,原因是第225行查询失败。在Azkaban中单独调用uname -s | tr '[:upper:]' '[:lower:]'
语句,会提示uname: extra operand '|'
。
因为我这边没有容器的访问方式 ,在确定容器后台是Linux的情况下。
直接注释掉第225行到第231行,并将227行复制到231行后面。
225 #OS=`uname -s | tr '[:upper:]' '[:lower:]'`
226 #if [ $OS = "linux" ]; then
227 # (((("$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}" 2>&1; echo $? >&3 ) | grep -viE "Gtk-WARNING|GLib-GObject|GLib-CRITICAL|^$" >&4 ) 3>&1)| inputtoexitstatus ) 4>&1
228 #else
229 # "$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}"
230 #fi
231 #EXIT_CODE=$?
232 (((("$_PENTAHO_JAVA" $OPT -jar "$STARTUP" -lib $LIBPATH "${1+$@}" 2>&1; echo $? >&3 ) | grep -viE "Gtk-WARNING|GLib-GObject|GLib-CRITICAL|^$" >&4 ) 3>&1)| inputtoexitstatus ) 4>&1
再次使用Azkaban调用时就可以顺利执行kettle数据导入。