HiveQL的数学函数

使用Hive进行数据分析时,经常会用到数学函数和聚合函数。Hive 支持的内置数学函数有很多,主要有随机函数,取整函数,数学函数,三角函数,进制函数,符号函数,位函数,多列最值函数,分桶函数等。

阅读全文

HiveQL的函数概览

Select语句主要有三部分:Select子句 (WITH,SELECT,FROM,WHERE,GROUP BY,HAVING,ORDER BY,LIMIT),Join语句,Function函数。其中,Function函数 是最精彩也是最丰富的部分,不仅官方内置了大量函数,而且用户还可以自定义函数。本文以内置函数为主。

阅读全文

HiveQL的Select语句

前面文章已经解决了数据存储的问题,这篇将介绍查询数据的Select语句。当表中的数据越来越多时,如何查询想要的数据,或者进行数据分析呢?

阅读全文

HiveQL的导入与导出

上一篇说完了Table常用操作,创建了几种表,可是表中还没有数据,这就需要数据导入;数据按照业务逻辑经过Hive各种处理之后,还需要数据导出,方便进一步的分析处理。

阅读全文

HiveQL的Table常用操作

Apache Hive数据仓库软件有助于读取,写入和管理驻留在分布式存储中并使用SQL语法查询的大型数据集。而Table是Hive组织数据存储的主要数据单元,是一种结构化存储,用二维表结构来表示。

阅读全文

yarn命令行的常用操作

hadoop-0.23中引入的新架构将JobTracker的两个主要功能划分为:资源管理和作业生命周期管理。新的ResourceManager管理应用程序的全局计算资源分配,每个应用程序的ApplicationMaster管理应用程序的调度和协调。应用程序可以是传统yarnuce作业中的单个作业,也可以是此类作业的DAG。在该计算机上管理用户进程的ResourceManager和每台计算机的NodeManager守护程序构成了计算结构。实际上,每个应用程序的ApplicationMaster是特定于框架的库,其任务是与来自ResourceManager的资源进行协商,并与NodeManager一起执行和监视任务。

阅读全文

hdfs命令行的常用操作

HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。客户端与NameNode联系以获取文件元数据或文件修改,并直接与DataNode执行实际的文件I/O。

阅读全文

hadoop命令行的常用操作

编译并安装Hadoop分布式运行环境之后,第一个要用到的命令行就是hadoop。需要注意的是:每个发行版的命令行语法有些不一样,可以通过hadoop -help进行查看。

阅读全文

手动搭建Sqoop开发环境

Apache Sqoop 是一种工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据。

阅读全文

手动搭建Hive开发环境

Apache Hive 数据仓库软件有助于使用 SQL 读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和 JDBC 驱动程序以将用户连接到 Hive

阅读全文