在hive中会有很多数据是用json格式来存储的,而我们用数据的时候又必须要将json格式的数据解析成为正常的数据,今天我们就来聊聊hive中是如何解析json数据的。
下面这张表就是json格式的表,我们以这张表为例来解析json
select * from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt = 20190617
查询结果:
取字段:(重点来了!!!)
1.取单个json字段:
get_json_object(STRING json_string, STRING path)
select get_json_object(key,'$.uuid') from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt =20190617
结果:
注意:如果字段名称错误,不会报错,但结果会是null
select get_json_object(key,'$.uuid1') from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt =20190617
2.同时取多个字段
select get_json_object(key,'$.uuid'),get_json_object(key,'$.appName') from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt =20190617
结果:
是不是觉得这种取多个字段的方法比较low,来看取多个字段的另一种方法:
json_tuple(STRING jsonStr, STRING k1, STRING k2)
select json_tuple(key,'uuid','appName') from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt =20190617
结果:
注意:这里已经没有$.了,再来看下如果不去掉的结果:
select json_tuple(key,'$.uuid','$.appName') from ff_sa.sa06_ff_b1_session_olg where etl_tx_dt =20190617
结果: