Apache Hadoop的开源协议决定了任何人可以对其进行修改,并作为开源或者商业版发布/销售。故而,目前Hadoop的发行版非常多,除了Apache的开源版本之外,还有Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,这些发行版都是基于Apache Hadoop衍生出来的。

0x00 综述

其中,不收费的Hadoop发行版主要有三个,分别是:

  • Apache基金会hadoop
  • Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)
  • Hortonworks版本(Hortonworks Data Platform,简称“HDP”)

在我任职过的公司当中,telecom使用了CDH,analysys使用了HDP,qtt使用了Apache Hadoop

0x01 发行版的比较

\ Apache Hadoop CDH HDP
开源情况 100%开源 100%开源 100%开源
收费情况 完全免费 免费版和企业版 完全免费
管理工具 Apache Ambari Cloudera Manager Ambari
稳定性
运维成本
生态支持 兼容性差 完善 完善

0x02 选择决定

考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程中的稳定性、兼容性、扩展性,
以及未来较为简单、高效的运维,遇到问题低廉的解决成本;建议使用第三方发行版本。

然而,本系列教程选取了Apache Hadoop社区版,考虑的是完全开源免费、社区活跃、文档与资料详实,便于深入学习。

参考文献

数据仓库的初级手册