• hive 中自定义UDF函数和自定义UDTF函数步骤


    一 、自定义UDF函数

    前期准备

      在maven工程中导入依赖

    <dependencies>
            <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
            <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-exec</artifactId>
                <version>1.2.1</version>
            </dependency>
    </dependencies>
    
    
    
    <!-- 打包的配置 -->
    <build>
            <plugins>
                <plugin>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>2.3.2</version>
                    <configuration>
                        <source>1.8</source>
                        <target>1.8</target>
                    </configuration>
                </plugin>
                <plugin>
                    <artifactId>maven-assembly-plugin </artifactId>
                    <configuration>
                        <descriptorRefs>
                            <descriptorRef>jar-with-dependencies</descriptorRef>
                        </descriptorRefs>
                        <archive>
                            <manifest>
                                <mainClass>wccount.MyWcDriver</mainClass>
                            </manifest>
                        </archive>
                    </configuration>
                    <executions>
                        <execution>
                            <id>make-assembly</id>
                            <phase>package</phase>
                            <goals>
                                <goal>single</goal>
                            </goals>
                        </execution>
                    </executions>
                </plugin>
            </plugins>
        </build>

    代码走起

    注意点:1、类需要继承org.apache.hadoop.hive.ql.UDF

        2、方法名必须是evaluate,支持重载;

        3、必须要有返回类型,可以返回null,但是返回类型不能为void;

    public class MYUDF extends UDF {
        public int evaluate (int num ){
            return num + 10;
        }
    }

    hive中配置

    1、首先利用maven打包,把jar包放入hive目录下的auxlib文件夹下(自己新建,如果是其他名字hive重启后会读不到,需要每次都重新add jar)

    2、进入hive,添加jar包

    add jar linux_jar_path//jar包绝对路径

    3、创建函数

    create [temporary] function [dbname.]function_name AS class_name;
    --temporary,是否创建临时函数
    --dbname.   用户自定义的函数是以库为单位的,在其他库要想调用函数需要    库名.函数名   来使用
    --class_name    指的是编写类的全类名

    注意点:

    当要修改jar包时,需要替换旧jar包,然后重启Hive客户端即可!!

    二、自定义UDTF函数

    代码走起

    重点:1、类要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

       2、需要重写 initialize(),process(),close()三个方法

    public class MyUDTF extends GenericUDTF {
    
        private ArrayList<String> outList = new ArrayList<>();
    
        @Override
        public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
    
    
            //1.定义输出数据的列名和类型(固定格式)
            List<String> fieldNames = new ArrayList<>();
            List<ObjectInspector> fieldOIs = new ArrayList<>();
    
            //2.添加输出数据的列名和类型
            fieldNames.add("lineToWord");
            //字符串的固定格式
            fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
    
            return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
        }
    
        @Override
        public void process(Object[] args) throws HiveException {
            
            //1.获取原始数据
            String arg = args[0].toString();
    
            //2.获取数据传入的第二个参数,此处为分隔符
            String splitKey = args[1].toString();
    
            //3.将原始数据按照传入的分隔符进行切分
            String[] fields = arg.split(splitKey);
    
            //4.遍历切分后的结果,并写出
            for (String field : fields) {
    
                //集合为复用的,首先清空集合
                outList.clear();
                /**
    这里也需要把结果写进集合或数组里再输出
    */
                //将每一个单词添加至集合
                outList.add(field);
    
                //将集合内容写出
                forward(outList);
            }
        }
    
        @Override
        public void close() throws HiveException {
    
        }
    }
                                    

    其他步骤同上

    自定义UDAF

    参考链接    https://blog.csdn.net/weixin_38750084/article/details/82780461

  • 相关阅读:
    django补充
    python自动化开发-[第二十五天]-scrapy进阶与flask使用
    python自动化开发-[第二十四天]-高性能相关与初识scrapy
    python自动化开发-[第二十三天]-初识爬虫
    python自动化开发-[第二十二天]-bbs多级评论、点赞、上传文件
    django模版之过滤器
    django_admin用法
    Django----配置数据库读写分离
    Flask解决跨域
    MongoDB
  • 原文地址:https://www.cnblogs.com/yangxusun9/p/12451548.html
Copyright © 2020-2023  润新知