TOP

Hadoop实战（9）_Hive进阶及UDF开发

2018-11-13 14:33:22 【大中小】浏览:76次

Tags：Hadoop 实战 _Hive 进阶 UDF 开发

CDH Hadoop系列目录：

Hadoop实战（3）_虚拟机搭建CDH的全分布模式

Hadoop实战（4）_Hadoop的集群管理和资源分配

Hadoop实战（5）_Hadoop的运维经验

Hadoop实战（8）_CDH添加Hive服务及Hive基础

Hive目录及配置文件

# 配置文件
/etc/hive/conf
# 根目录
/opt/cloudera/parcels/CDH/lib/hive

当cm界面里执行部署客户端配置时，如上两个conf目录都会覆盖。

JDBC方式访问Hive

基于HiveServer2服务。

SecureRT，sz设置下载目录，Options-Xmodem/Zmodem-Download。

HiveServer2端口，10000。

# user为提交作业的账户
Connection con = DriverManager.getConnection("jdbc:hive2://cdhslave1:10000/default", "root", "123456");

idea设置，Settings-Build, Execution, Deployment-Compiler-Java Compiler，Project bytecode version: 1.7

Default Settings-Editor-File Encodings, Project Encoding: UTF-8。

Project Structure, Project, 设置jdk版本和编译版本，编译版本和Settings一致。Libraries, 把lib目录加进工程。Modules, 设置输出目录，Use module compile output path。

调整配置后，等待索引创建完。

UDF开发

UDF，一进一出。

UDAF，聚集函数，多进一出。

UDTF，一进多出。

UDF中的eva luate函数名不可变，可以任意重载。

使用方式：在Hive会话中add自定义函数的jar文件，然后创建function，继而使用函数。

需求：统计每个活动页的流量，获取活动ID。

Java开发
导出jar
使用

add jar /root/project/lib/hive_udf.jar ;
create temporary function GetActID as 'com.cloudy.hive.udf.GetActID';

sql中通过GetActID直接使用，用起来和内置函数无区别。

IDEA中打包，

Project Structure-Artifacts, 有两类，分别是空的和有依赖包的，Build on make选上。然后Build-Make Project。

hive_udf.jar上传至/root/project/lib/

# /root/project/rpt_act_visit_daily
touch rpt_act_visit_daily.hql
touch rpt_act_visit_daily.sh

hiveF命令封装

Q: hive -f不能传参，hql只能写在shell脚本里，导致shell脚本内容庞大和凌乱。

A: 开发一个hiveF的功能，用法同hive -f，但支持传参，使用格式：

hiveF aa.sql
hiveF aa.sql -date 2015-01-02
hiveF aa.sql -date 2015-01-02 -date1 2015-01-03

其中，aa.sql里通过${date}的方式对接。

hiveF开发思路，

使用方式，hiveF aa.sql -date 2015-01-02

开发一个Java应用程序读出aa.sql内容存入一个String变量里。
把里面的${date}替换为2015-01-02，并System.out.println出来。
在shell脚本里，用str接收2的输出，执行hive -e $str。

# /root/project
mkdir bin
cd bin
touch hiveF

难点，把Java程序的输出结果直接放到shell脚本里运行。
Java运行，参数传进来，shell脚本里$*接收参数。参数是哪里传的呢？哪里传给hiveF的呢？是shell脚本rpt_act_visit_daily.sh传过来的，交给java来处理，打印的str由cmd来接收，再用hive -e执行。

#!/bin/sh
. /etc/profile

cmd=`java -jar /root/project/lib/HiveF.jar $*`
echo $cmd
hive -e "$cmd" -i /root/project/bin/init.hql

chmod +x hiveF

vi /etc/profile
export PATH=$PATH:/root/project/bin

source /etc/profile

打包hiveF.jar, Main Class: com.cloudy.hive.hiveF.Main

执行，

sh ./rpt_act_visit_daily.sh 2015-08-28

您可能还想看

数据分析/数据挖掘/机器学习

Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据

Python数据挖掘与机器学习_通信信用风险评估实战(2)——数据预处理

Python数据挖掘与机器学习_通信信用风险评估实战(3)——特征工程

Python数据挖掘与机器学习_通信信用风险评估实战(4)——模型训练与调优

爬虫

Python爬虫实战之爬取链家广州房价_01简单的单页爬虫

Python爬虫实战之爬取链家广州房价_02把小爬虫变大

Python爬虫实战之爬取链家广州房价_03存储

Python爬虫实战之爬取链家广州房价_04链家的模拟登录(记录)

搜狗词库爬虫（1）：基础爬虫架构和爬取词库分类

搜狗词库爬虫（2）：基础爬虫框架的运行流程

微信公众号「数据分析」，分享数据科学家的自我修养，既然遇见，不如一起成长。

数据分析

转载请注明：转载自微信公众号「数据分析」


【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：认识hadoop	下一篇：Hadoop安装教程_单机/伪分布式配置