1、简介
最近在摸索利用sparkstreaming从kafka中准实时的读取数据,并将在读取的过程中,可以做一个简单的分析,最后将分析结果写入hbase中。
2、出现的问题
(1)将从kafka中读取数据的程序打包到服务器上运行,发现需要用kafka相关的包,因此采用assembly的方法打包即可。
(2)运行 spark-submit --class "com.yiban.datacenter.MyDataCollection.KafkaToHbase" --master local MyDataCollection-0.0.1-SNAPSHOT-jar-with-dependencies.jar出现如下错误:
java.lang.NoClassDefFoundError: org/apache/htrace/Trace 这个错误很明显是由于无法加载对应的类,也就是没有添加相应的jar包。
分析原因:这个对应jar是一个htrace-core-3.1.0-incubating.jar 的jar包。本以为只需要在pom文件中添加对应的依赖项即可。但是我尝试的结果还是报同样的错误。
解决的方法:
既然还是报同样的错误,于是就执行在执行命令的时候,通过命令行参数的形式指定对应的jar包的路径即可。最后运行的命令如下所示:
spark-submit --class "com.yiban.datacenter.MyDataCollection.KafkaToHbase --master local --driver-class-path /opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/jars/htrace-core-3.1.0-incubating.jar --conf spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/jars/htrace-core-3.1.0-incubating.jar MyDataCollection-0.0.1-SNAPSHOT-jar-with-dependencies.jar
同样也可以在yarn-cluster模式下运行:
spark-submit --class "com.yiban.datacenter.MyDataCollection.KafkaToHbase --master yarn-cluster --driver-class-path /opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/jars/htrace-core-3.1.0-incubating.jar --conf spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.p0.4/jars/htrace-core-3.1.0-incubating.jar MyDataCollection-0.0.1-SNAPSHOT-jar-with-dependencies.jar