转自:https://blog.csdn.net/lele5000/article/details/89856355
给hive表新增了三个字段,重新insert overwrite了历史有数据的分区,但是select 新增字段仍然没有数据,值一直为NULL,莫名其妙
我的修改表结构的sql是这样子的
alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称');
可是新增的这个字段的值总是NULL
解决办法很简单,将修改表结构的sql改成这样
alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;
然后重新insert overwrite,再查询就新增字段就会有数据了。
另外一种解决方式:
可以手动使用如下命令来对分区添加 alter table 表名 partition(dt='2019-04-26') add columns(字段名 类型);
或者也可以直接将分区数据删除,然后重新insert,这样新的字段也会有了
官方文档描述如下:
The CASCADE|RESTRICT clause is available in Hive 1.1.0. ALTER TABLE ADD|REPLACE COLUMNS with CASCADE command changes the columns of a table's metadata, and cascades the same change to all the partition metadata. RESTRICT is the default, limiting column changes only to table metadata.
如上所述,在1.1.0中表和分区的元数据就是分开处理的,在增加字段的时候添加CASCADE能同时更新表和分区 对于,在添加字段的时候没有指定的cascade的情况
因为我们在重跑数据的时候,虽然HDFS上的数据更新了,但是我们查询的时候仍然查询的是旧的元数据信息(即Mysql中的信息)
注意:对于执行了add column语句之后新生成的分区,是不会有问题的,Hive会自动维护新分区中的元数据。