Intellij IDEA作为一种IDE开发工具,能有效提升编码效率。Maven的核心功能是合理叙述项目间的依赖关系,通过pom.xml文件的配置获取jar依赖包,而不用手动添加。那么,使用Intellij IDEA与Maven如何帮助我们快速地开发Hive UDF函数呢?

0x00 搭建开发环境

Windows操作系统下,下载并安装三个软件:

  • JDK 8u112
  • Apache Maven 3.3.9
  • IntelliJ IDEA Community 2019.2

安装Maven后,建议修改 {maven_home}/conf/settings.xml 的 localRepository 属性;安装IntelliJ IDEA后,File > Settings > Build Execution Deployment > Build Tools > Maven,必须修改 Maven home directory 和 User settings file 两个配置项,映射到之前安装的Maven版本,使得新建Maven项目都生效。

0x01 Maven工程的构建

新建Maven项目,File > New > Project > Maven,点击 Enable Auto-Import,修改pom.xml文件如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<groupId>com.data.hive</groupId>
<artifactId>hive_udf</artifactId>
<version>1.0-SNAPSHOT</version>

<properties>
<project.build.sourceEncoding>UTF8</project.build.sourceEncoding>
<hadoop.version>2.7.2</hadoop.version>
<hive.version>2.0.1</hive.version>
</properties>

<repositories>
<!--加入Hadoop原生态的maven仓库的地址-->
<repository>
<id>Apache Hadoop</id>
<name>Apache Hadoop</name>
<url>https://repo1.maven.org/maven2/</url>
</repository>
</repositories>

<dependencies>
<!--添加hadoop依赖-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!--添加hive依赖-->
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>${hive.version}</version>
</dependency>
</dependencies>

<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.4.3</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
<transformers>
<transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass></mainClass>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>

保存后自动添加jar依赖包,非常方便。

0x02 编译UDF的jar包

在Maven项目下,src > main > java,新建 Package,再新建 UDF 函数类,编写逻辑代码;接下来有两种方式编译jar包,

  • Maven工具箱,Lifecycle > clean > compile > package
  • Terminal命令行,mvn clean > mvn compile > mvn package

操作完之后,会在Maven工程下生成target目录,里面包含两个jar包:一个是集成了所有jar依赖包,比较大;另一个是没有集成jar依赖包,只有源代码,比较小。

参考文献

Hive自定义函数UDF
Hive自定义函数GenericUDF
Hive自定义函数GenericUDTF
Hive自定义函数GenericUDAF