这套初级手册是基于 Hadoop+Hive+Sqoop+Airflow 编写的,主要目的是对数据仓库有个宏观的认识,包括数据采集、ETL流程、任务调度和数据模型等。当中的每一个环节都有着丰富的内容,会在后期的中级手册与高级手册进行讨论,欢迎大家来围观。

0x00 环境搭建

0x01 工具使用

0x02 数据模型

0x03 任务流调度

延伸

除了以上提到的主题之外,还有数据管理(元数据,计算管理,存储和成本管理,数据质量),数据应用(接口服务,报表服务,应用服务),数据挖掘等。