设为首页 加入收藏

TOP

Hive数据去重方法记录
2019-02-12 01:00:56 】 浏览:54
Tags:Hive 数据 方法 记录

Hive数据去重语句

insert overwrite table ad_click_info    
select t.ad_id,t.ad_date from     
    ( select ad_id,    
           ad_date ,    
           row_number() over(distribute by ad_id sort by ad_date desc) as row  
from ad_click_info) t where t.row=1;   
说明:
1. ad_id 为去重所依据的key, ad_date 表示多个 ad_id 的排列顺序,这个关键字将决定哪个 ad_id 将留下
2. t.row=1表示重复的数据只保留第一行,本例中将保留最新日期的 ad_id
3. distribute by 关键字指定分发的key,同一个key将分发到同一个reducer
4. sort by 是单机范围内排序,因此配合distribute by 就可以对某一个关键字全局排序
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇hive 随机抽样 下一篇hive:null 和 '' , &#..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目