一 、自定义UDF函数
前期准备
在maven工程中导入依赖
<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version> </dependency> </dependencies> <!-- 打包的配置 --> <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <plugin> <artifactId>maven-assembly-plugin </artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> <archive> <manifest> <mainClass>wccount.MyWcDriver</mainClass> </manifest> </archive> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> </plugins> </build>
代码走起
注意点:1、类需要继承org.apache.hadoop.hive.ql.UDF
2、方法名必须是evaluate,支持重载;
3、必须要有返回类型,可以返回null,但是返回类型不能为void;
public class MYUDF extends UDF { public int evaluate (int num ){ return num + 10; } }
hive中配置
1、首先利用maven打包,把jar包放入hive目录下的auxlib文件夹下(自己新建,如果是其他名字hive重启后会读不到,需要每次都重新add jar)
2、进入hive,添加jar包
add jar linux_jar_path//jar包绝对路径
3、创建函数
create [temporary] function [dbname.]function_name AS class_name; --temporary,是否创建临时函数 --dbname. 用户自定义的函数是以库为单位的,在其他库要想调用函数需要 库名.函数名 来使用 --class_name 指的是编写类的全类名
注意点:
当要修改jar包时,需要替换旧jar包,然后重启Hive客户端即可!!
二、自定义UDTF函数
代码走起
重点:1、类要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
2、需要重写 initialize(),process(),close()三个方法
public class MyUDTF extends GenericUDTF { private ArrayList<String> outList = new ArrayList<>(); @Override public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException { //1.定义输出数据的列名和类型(固定格式) List<String> fieldNames = new ArrayList<>(); List<ObjectInspector> fieldOIs = new ArrayList<>(); //2.添加输出数据的列名和类型 fieldNames.add("lineToWord"); //字符串的固定格式 fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector); return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs); } @Override public void process(Object[] args) throws HiveException { //1.获取原始数据 String arg = args[0].toString(); //2.获取数据传入的第二个参数,此处为分隔符 String splitKey = args[1].toString(); //3.将原始数据按照传入的分隔符进行切分 String[] fields = arg.split(splitKey); //4.遍历切分后的结果,并写出 for (String field : fields) { //集合为复用的,首先清空集合 outList.clear(); /** 这里也需要把结果写进集合或数组里再输出 */ //将每一个单词添加至集合 outList.add(field); //将集合内容写出 forward(outList); } } @Override public void close() throws HiveException { } }
其他步骤同上
自定义UDAF
参考链接 https://blog.csdn.net/weixin_38750084/article/details/82780461