当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住。加之网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。

0x00 前言

本教程详细记录了 hadoop 安装的全过程,还有配置文件的参数设置,一次性解决安装过程的所有问题。

0x01 虚拟服务器

VMware Workstation 11.0

host ip os role cpu memory disk
mdw01 192.168.100.186 CentOS 6.8 x64 master 1*2 8GB 30GB
sdw02 192.168.100.187 CentOS 6.8 x64 slave 1*2 4GB 30GB
sdw03 192.168.100.188 CentOS 6.8 x64 slave 1*2 4GB 30GB

0x02 系统配置

(1) 修改Hostname

1
2
3
hostname
cat /etc/sysconfig/network
vim /etc/hosts

(2) 关闭SELinux

1
2
3
setenforce 0
vim /etc/selinux/config
sestatus

(3) 关闭iptables

1
2
service iptables stop
chkconfig iptables off

(4) 安装JDK

1
2
3
4
5
6
7
8
9
cd /opt/
tar -xf jdk-8u112-linux-x64.tar.gz
chown -R root:root jdk1.8.0_112/
ln -s /opt/jdk1.8.0_112/ /opt/java
vim /etc/profile

source /etc/profile
java -version
rm -f jdk-8u112-linux-x64.tar.gz

(5) 免密登陆ssh

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
vim /etc/ssh/sshd_config
/etc/init.d/sshd restart

useradd hadoop
passwd hadoop

ls -l /etc/sudoers
chmod 640 /etc/sudoers
vim /etc/sudoers
chmod 0440 /etc/sudoers

su hadoop
ssh-keygen
cd ~/.ssh/
cat id_rsa.pub >> authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
scp authorized_keys hadoop@sdw02:~/.ssh/
ssh hadoop@sdw03

(6) 时间同步NTP服务

1
2
3
4
5
6
7
8
9
rpm -q ntp
chkconfig ntpd on
ntpdate -u 202.112.10.36
hwclock -w
vim /etc/ntp.conf
vim /etc/sysconfig/ntpd
service ntpd start
netstat -tlunp | grep ntp
ntpq -p

0x03 安装Hadoop

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
chown -R hadoop:hadoop /data/
cd /data/
tar -xf hadoop-2.6.4.tar.gz
ln -s /data/hadoop-2.6.4/ /data/hadoop
vim ~/.bashrc

cd /data/hadoop/etc/hadoop
vim hadoop-env.sh
#vim yarn-env.sh
vim core-site.xml
vim hdfs-site.xml
vim mapred-site.xml
vim yarn-site.xml
vim slaves

cd /data/hadoop/bin/
./hdfs namenode -format
cd /data/hadoop/sbin/
./start-dfs.sh
./start-yarn.sh
./mr-jobhistory-daemon.sh start historyserver
./yarn-daemon.sh start proxyserver

./stop-all.sh

配置文件的详细参数设置,请参考 hadoop_conf_files

安装完成后,访问下HDFS和Yarn地址:
HDFS:http://mdw01:50070/dfshealth.html#tab-overview
Yarn:http://mdw01:8088/cluster

参考文献

数据仓库的初级手册