UDF函数中定义的集合对象何时初始化
udf函数放在sql中对某个字段进行处理,那么在底层会创建一个该类的对象,这个对象不断的去调用这个evaluate(...)方法,截图如下:
1.1 如果说对于每一条传入UDF中需要处理的数据都需要全新的集合对象,那么这个时候集合对象就需要在类中声明,在evaluate(...)中进行初始化,这样就保证了对于传入UDF函数的每一条待处理数据,对应的集合对象都是全新的。截图如下:
以下是对应的函数返回的结果(这是我想要的结果,之前是下面1.2截图所示的结果),可以看出传入的数据(source)不同,函数处理后的数据(result)也是不同的。
1.2 如果说对于每一条传入UDF中需要处理的数据都需要结合之前的集合里的数据进行处理,那么这个时候集合对象就需要在类中声明并初始化。截图如下
以下是对应的函数返回的结果(这并不是我想要的结果),可以看出传入的数据(source)不同,函数处理后的数据(result)居然是相同的,
这正是因为集合初始化放在了创建UDF对象的时候,那么这个UDF对象每次在调用evaluate这个方法对传进来的source数据进行处理的时候需要的集合对象并不是全新的,集合中保留了之前数据的处理结果,那么也就对本次待处理数据造成了影响,最终导致返回的result数据并不是我们想要的结果。