微信扫一扫 分享朋友圈

已有 1028 人浏览分享

开启左侧

HIVE 如何增加修改删除字段

[复制链接]
1028 0
非分区表
增加字段
增加字段可以使我们在所有字段之后和分区字段之间增加一个字段
image.png
使用格式
ALTER TABLE table_name
  ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
  [CASCADE|RESTRICT]                         -- (Note: Hive 1.1.0 and later)

使用示例,在 user_info 中增加 user_addr 字段,现有的表数据如下:
image.png
ALTER TABLE user_info ADD COLUMNS (user_addr string COMMENT '用户地址');

image.png
当我增加新的字段 user_addr 后,新增字段前的数据该列显示为 NULL ,那么如果我们新增一条数据呢?
INSERT INTO TABLE user_info
SELECT '003' as user_id, 'jack' as user_name, '34' as age, '广东深圳' as user_addr
;

结论:非分区表新增字段后,原有数据的该字段会显示为 NULL,新增的数据会按新增的数据进行展示
image.png
还没结束,我们向 user_info 再新增 user_appr 字段的时候再加下这两个 CASCADE、RESTRICT 属性,看看会发生什么
ALTER TABLE user_info ADD COLUMNS (user_appr string COMMENT '用户偏好') CASCADE;
image.png

添加 CASCADE 后执行失败,说明非分区表再添加字段时不能加CASCADE
ALTER TABLE user_info ADD COLUMNS (user_appr string COMMENT '用户偏好') RESTRICT;

image.png
添加RESTRICT 后执行成功,该语法具体含义后面再述
修改字段(修改字段名称、类型、注释、顺序)
修改前

image.png
修改字段 user_addr 的字段名称为 user_address
ALTER TABLE user_info CHANGE user_addr user_address string;

image.png
修改 user_address 的顺序,将该段放置在 user_appr 后
# 不支持,执行报错
# 语义:将user_address 更改为 user_address,类型为 string,放置在 user_appr 后面
ALTER TABLE user_info CHANGE is_active is_active string AFTER user_appr;

修改 is_active 字段的类型为 string,修改前为 int
ALTER TABLE user_info CHANGE is_active is_active string;
修改 user_address 字段的中文注释
ALTER TABLE user_info CHANGE user_address user_address STRING COMMENT '修改字段注释';

注意:以上的修改,仅仅是实现了修改元数据,实际的 HDFS 文件并没有修改,这个很关键
删除字段
HIVE 不能直接删除字段,且删除字段的操作有很大的局限性,一般尽量删除后面的字段,但是如果直接从中间删除,可能会出出现错位的情况。而且尽量不要有删除字段的操作

image.png
-- 示例:删除 user_age 字段
ALTER TABLE user_info REPLACE COLUMNS (user_id STRING, user_name STRING);

image.png
看到结果,我们发现 user_age 字段确实已经被移除了,这时我们如果执行添加 user_age 会发生什么情况
ALTER TABLE user_info ADD COLUMNS (user_age STRING COMMENT '用户年龄');

image.png
添加字段后,我们发现,之前该列的数据重新恢复了,并不是我们期望的 NULL 。因此,我们可以得出结论:HIVE 删除字段只是修改了元数据而已,真实的文件数据并没有被删除
分区表
新增字段
首先我们创建一张分区表

CREATE TABLE IF NOT EXISTS cust_info
(
user_id      string  COMMENT '用户ID'
,user_name    string  COMMENT '用户姓名'
,user_age     string  COMMENT '用户年龄'
)
COMMENT '客户信息表'
PARTITIONED BY (ds STRING COMMENT'分区')
;

INSERT OVERWRITE TABLE cust_info partition(ds = '20220223')
SELECT '001' as user_id, 'kyle' as user_name, '23' as user_age
UNION ALL
SELECT '002' as user_id, 'lisa' as user_name, '25' as user_age
;

我们新增一个字段 user_addr 字段试试
ALTER TABLE cust_info ADD COLUMNS (user_addr string COMMENT '用户地址')
;
新增完毕后,我们发现 20220223 分区中的数据 user_addr 列已经出现了,而且该列的值全部为 NULL

image.png
不符合我们的期望,我们来重新对该分区覆盖插入数据,并对该分区插入数据,对该列赋值

INSERT OVERWRITE TABLE cust_info partition(ds = '20220223')
SELECT '001' as user_id, 'kyle' as user_name, '23' as user_age, '中国深圳' as user_addr
UNION ALL
SELECT '002' as user_id, 'lisa' as user_name, '25' as user_age, '中国北京' as user_addr
;

插入数据后重新查看
,发现该列的值仍然为 NULL ,这是怎么回事

image.png
看下官方的文档
image.png
大概的意思为:新增字段时,默认为 RESTRICT ,这样只会修改元数据,并不会对历史分区生效,因此在刷历史数据的时候不生效。为了对历史分区生效,需要增加 CASCADE。只对历史分区有影响,新建分区则没有影响
我们删除表结构,然后重新插入数据并执行新增字段操作试试
ALTER TABLE cust_info ADD COLUMNS (user_addr string COMMENT '用户地址') CASCADE
;

image.png



免责声明:
1,海欣资源网所发布的资源由网友上传和分享,不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何损失或损害承担责任。
2,海欣资源网的资源来源于网友分享,仅限用于学习交流和测试研究目的,不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
3,海欣资源网所发布的资源由网友上传和分享,版权争议与本站无关,您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
4,如果您喜欢,请支持正版,购买正版,得到更好的正版服务,如有侵权,请联系我们删除并予以真诚的道歉,联系方式邮箱 haixinst@qq.com
海欣资源-企业信息化分享平台。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

2

粉丝

20

主题
热度排行
回复排行
最新贴子

Archiver|手机版|海欣资源 ( 湘ICP备2021008090号-1 )|网站地图

GMT+8, 2024-4-19 15:06 , Gzip On, MemCached On.

免责声明:本站所发布的资源和文章均来自网络,仅限用于学习交流和测试研究目的,不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 本站信息来自网络,版权争议与本站无关,您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 如果您喜欢,请支持正版,购买正版,得到更好的正版服务,如有侵权,请联系我们删除并予以真诚的道歉。