CA88新登入6完全分布式多节点集群安装配置,0完全分布式搭建

末段指标:完成Win7下,制造Ubuntu虚构机搭建Hadoop多节点集群

先参考:《Hadoop-2.3.0-cdh5.1.0伪遍布安装(基于CentOS)》
http://www.linuxidc.com/Linux/2014-09/106372.htm

1.Hadoop介绍 

1.当前pc环境

WindowS版本:Win7 专业版

处理器:Intel(R) Core(TM) i5-4590 CPU @ 3.30GHz 

安装内部存款和储蓄器(RAM):4.00GB

系统项目:64bitOS

ip:192.168.1.110

注:本例使用root用户搭建

Hadoop是Apache软件基金会旗下的一个开源遍及式总结平台。以Hadoop分布式文件系统(HDFS,Hadoop
Distributed Filesystem)和MapReduce(谷歌MapReduce的开源完毕)为基本的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

2.软件策动

宿主机:Win7专业版

桌面设想机软件:产品VMware® Workstation 12 Pro;版本12.1.0 build-3272444;
VMwareworkstation_full_12.1.0.2487.1453173744.exe

桌面linuxOS:版本ubuntu 14.04LTS ;         ubuntu-14.04.3-desktop-amd64.exe(64bit)

JDK :版本 1.8; jdk-8u73-linux-x64.tar.gz(64bit)  
 jdk装到设想机里面,所以是linux的jdk

Hadoop:版本2.6; hadoop-2.6.4.tar.gz

Eclipse:

集群配置:Ubuntu14(虚构机名称)Master.Hadoop(hostname)
192.168.1.111(ip)

 Ubuntu14slave1(设想机名称)
 Slaver1.Hadoop(hostname)192.168.1.112(ip)

一、环境

对此Hadoop的集群来说,能够分为两大类剧中人物:Master和Salve。三个HDFS集群是由三个NameNode和几何个DataNode组成的。在这之中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的寻访操作;集群中的DataNode管理存款和储蓄的数目。MapReduce框架是由一个独自运营在主节点上的JobTracker和平运动作在每一种集群从节点的TaskTracker共同构成的。主节点担任调治构成三个功课的享有任务,这么些任务布满在差异的从节点上。主节点监察和控制它们的施行意况,并且重新实行此前的失利职务;从节点仅担任由主节点指派的任务。当贰个Job被交给时,JobTracker接收到提交作业和配置音信之后,就能将配备消息等分发给从节点,同临时候调治职务并监控TaskTracker的实践。

3.设置配置起航

操作系统:CentOS 6.5 63位操作系统

从地点的介绍能够看看,HDFS和MapReduce共同整合了Hadoop布满式系统体系布局的宗旨。HDFS在集群上贯彻布满式文件系统,MapReduce在集群上贯彻了遍及式总括和天职管理。HDFS在MapReduce职责管理进程中提供了文本操作和积攒等协助,MapReduce在HDFS的根底上贯彻了任务的分发、追踪、实践等职业,并搜罗结果,二者相互功效,完成了Hadoop布满式集群的关键义务。

3.1  安装VMware Workstation

 设置流程能够仿照效法 Windows 7下用VMware Workstation 10虚构机安装
Ubuntu 14.04 
 
http://www.linuxidc.com/Linux/2014-04/100473.htm

虚构机软件安装的地方d:\Program Files(x86)\VMare\VMare Workstation\

 
 注意事项:安装出现是或不是更新和插足用户体验,去掉勾,不选;许可证秘钥自行百度;安装达成展开在支援在这之中能够查阅版本之类的消息。

 

3.2
 安装设想机并安排Ubuntu碰着

安装流程可以参考
http://www.linuxidc.com/Linux/2016-09/135192.htm

自个儿虚构机名称:Ubuntu14         虚构机地点:d:\Ubuntu64

     Ubuntu14slave1     虚构飞机地方置:d:\Ubuntu14slave1

     四个用户名都同样,用户名 ysu  密码 123456

注意事项:客户机是linux,版本是ubuntu;网络项目很关键:笔者选的是桥接,Win7宿主机和三个设想机在一个网段里面。

互联网项目二种有别于参照他事他说加以考察:

虚构机互联网连接方寻找式是怎么着设置的。如VMWare设想机提供了三种专门的职业情势,它们是bridged(桥接方式)、NAT(互联网地址调换格局)和host-only(主机形式)。要想在网络管护中合理利用它们,你就相应先领悟一下这几种工作格局,然后就理解答案了。

bridged(桥接形式)

  在这种格局下,VMWare虚构出来的操作系统就如局域网中的一台独立的主机,它能够访谈网内任何一台机器。在桥接情势下,你供给手工业为设想系统陈设IP地址、子网掩码,而且还要和宿主机器处于同一网段,那样虚构系统能力和宿主机器进行通讯。同期,由于那一个编造系统是局域网中的贰个独自的主机系统,那么就能够手工业配置它的TCP/IP配置音信,以促成通过局域网的网关或路由器访谈互连网。

host-only(主机形式)

  在少数特殊的互连网调节和测量检验遭逢中,要求将忠实处境和虚构意况隔开分离开,那时你就可选取host-only格局。在host-only方式中,全数的设想系统是足以并行通讯的,但虚构系统和实在的网络是被隔断开的。

3.NAT(互联网地址转变情势)

  使用NAT形式,正是让虚拟系统借助NAT(网络地址转换)作用,通过宿主机器所在的网络来寻访公网。也正是说,使用NAT格局能够兑今后设想系统里拜见网络。NAT格局下的设想系统的TCP/IP配置音信是由VMnet8(NAT)设想互联网的DHCP服务器提供的,不或许实行手工业修改,因此虚构系统也就不只怕和本局域网中的其余实际主机实行报导。选择NAT格局最大的优势是杜撰系统接入互连网特别简单,你不需求实行其余别的的陈设,只须要宿主机器能访谈网络就可以。

 

 

常常提醒软件更新,大家选拔永不更新

 

3.3  修改设想机静态ip

参考

结果
Ubuntu14 ip192.168.1.111子网掩码 255.255.255.0 网关 192.168.1.1 DNS
202.206.240.12

Ubuntu14slave1 ip 192.168.1.112 子网掩码
255.255.255.0 网关 192.168.1.1DNS 202.206.240.12

利用 ifconfig查看结果

 

3.4
 修改设想机主机名称和hosts文件

linux命令需求活动查阅,注意命令里面是还是不是有空格

指令:鼠标左键空白区域,Ctrl+Alt+T
 ,弹出终端

    sudo gedit /etc/hostname

    sudo gedit /etc/hosts

结果:

Ubuntu14 hostname 文件 Master.Hadoop
 

hosts文件 127.0.0.1 localhost 192.168.1.111Master.Hadoop 192.168.1.112
Slaver1.Hadoop

 

Ubuntu14Slaver1 hostname 文件
Slaver1.Hadoop  

hosts文件 127.0.0.1 localhost
192.168.1.111 Master.Hadoop 192.168.1.112 Slaver1.Hadoop

运用ping
相互衔接宿主机和设想机(会用到ctrl+c让ping结束)

 

3.5
设想机安装配备jdk

确定保障虚构机能联网,张开ubuntu火狐浏览器,下载安装参谋 
Ubuntu安装JDK详解 
http://www.linuxidc.com/Linux/2016-11/136958.htm

自身的jdk安装目录
/usr/lib/jvm/jdk1.8.0_73

使用java-version查看jdk

 

 

3.6
SSH无密码登录验证配置

安装ssh

命令:sudo apt-get install
openssh-server

sudo apt-get install
openssh-client

使用ssh version
查看ssh是还是不是安装成功

 

浮动无密码密钥对:id_rsa(私钥)id_rsa.pub(公钥),暗中认可存款和储蓄在/home/ysu(用户名)/.ssh目录下

命令:ssh-keygen -t rsa -P ”

使用ls 查看是不是有那多少个钥

 

把id_rsa.pub追加到授权的key里面去。

命令:cat ~/.ssh/id_rsa.pub >>
~/.ssh/authorized_keys

 

行使root用户登入修改ssh配置文件

指令:su
//输入root密码切换来最好用户

gedit /etc/ssh/sshd_config

反省上边几行

PermitRootLogin yes(要改成yes)

RSAAuthentication yes
# 启用 CR-VSA 认证 (去掉最前边#)

PubkeyAuthentication yes
# 启用公钥私钥配对验证方法(去掉最前方#)

AuthorizedKeysFile 
%h/.ssh/authorized_keys # 公钥文件路线 (去掉最后边#)

 

重启ssh服务

/home/ysu/.ssh/ service ssh
restart

 

使用exit
退出root登录,验证ssh是或不是设置成功

ssh localhost

在测量试验有望出现 Agent admitted failure
to sign using the key

消除的章程: ssh-add
~/.ssh/id_rsa

 

将公钥传到长途主机上

命令:cd /home/ysu/.ssh

            ssh-copy-id  ysu@Slaver1.Hadoop//这里是Master传入Slaver1

    enter完后输入Slaver1.Hadoop密码

 

检查测量检验是还是不是能够无密码登录

命令:ssh Slaver1.Hadoop

结果   ysu@Master:~$变成ysu@Slaver1:~$

 

最后Slaver1机器也遵照上述的步调重复三回

 

3.7
Hadoop设置配备

瞩目:Hadoop2.X版本跟1.X版本众多命令不均等,必要配置的公文也不均等。

管教设想机能联网,打开ubuntu火狐浏览器,下载Hadoop(暗中认可下载到/home/ysu/下载目录里面)

root用户登入将hadoop安装包移动到/usr目录下

cp /home/ysu/下载/hadoop-2.6.4.tar.gz /usr/

 

解压安装包

cd /usr/

tar -xzvf hadoop-2.6.4.tar.gz

 

重命名叫hadoop

mv hadoop-2.6.4 hadoop

 

给ysu用户分配hadoop文件夹读权限

chown -R ysu:ysu hadoop

 

剔除安装包

rm -rf  hadoop-2.6.4.tar.gz

 

地点文件系统成立一下文书夹

mkdir /usr/hadoop/tmp

mkdir /usr/hadoop/dfs/data

mkdir /usr/hadoop/name

 

修改 /etc/profile文件 添加hadoop路径

cd profile

sudo gedit /etc/profile

文件中

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export
PATH=PATH:PATH:HADOOP_HOME/bin

 

配置7个文件
均在/usr/hadoop/etc/hadoop/

 

配置 hadoop-env.sh //修改JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_73

配置 yarn-env.sh//修改JAVA_HOME

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_73

配置slaves文件//增加slave节点

Slaver1.Hadoop

配置core-site.xml文件

<configuration>

<property>

  <name>fs.defaultFS</name>
  <value>hdfs://Master.Hadoop:9000</value>
 </property>

 <property>
  <name>io.file.buffer.size</name>
  <value>131072</value>
 </property>
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop/tmp</value>
  <description>Abasefor other temporary
directories.</description>
 </property>
 <property>
</configuration>

配置hdfs-site.xml//增添hdfs配置音讯(namenode、datanode端口和目录地点)

 

<configuration>
 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>Master.Hadoop:9001</value>
 </property>
  <property>
   <name>dfs.namenode.name.dir</name>
   <value>/usr/hadoop/dfs/data</value>
 </property>
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>/usr/hadoop/dfs/data</value>
  </property>
<property>
  <name>dfs.replication</name>
  <value>3</value>
 </property>
 <property>
  <name>dfs.webhdfs.enabled</name>
  <value>true</value>
 </property>
</configuration>

布局
 mapred-site.xml 文件//扩张mapreduce配置(使用yarn框架、jobhistory使用地点以及web地址)

留意/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件,必要复制同等对待命名
cp mapred-site.xml.template mapred-site.xml
sudo gedit mapred-site.xml

 

<configuration>
  <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.address</name>
  <value>Master.Hadoop:10020</value>
 </property>
 <property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>Master.Hadoop:19888</value>
 </property>
</configuration>

配置yarn-site.xml//增加yarn功能

<configuration>
  <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
  </property>
  <property>
 
 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
   <name>yarn.resourcemanager.address</name>
   <value>Master.Hadoop:8032</value>
  </property>
  <property>
   <name>yarn.resourcemanager.scheduler.address</name>
   <value>Master.Hadoop:8030</value>
  </property>
  <property>
 
 <name>yarn.resourcemanager.resource-tracker.address</name>
   <value>Master.Hadoop:8031</value>
  </property>
  <property>
   <name>yarn.resourcemanager.admin.address</name>
   <value>Master.Hadoop:8033</value>
  </property>
  <property>
   <name>yarn.resourcemanager.webapp.address</name>
   <value>Master.Hadoop:8088</value>
  </property>
</configuration>

上述Master的hadoop配置达成,配置salver的hadoop

 

把master下的hadoo文件夹传到salver就能够

普通用户和root用户均可注意sudo 和su的区别

命令:scp -r /usr/hadoop root@Salver1.Hadoop:/usr/

 

给ysu用户分配hadoop文件夹读权限

chown -R ysu:ysu hadoop

 

修改 /etc/profile文件 添加hadoop路径

cd profile

sudo gedit /etc/profile

文件中

# set hadoop path

export HADOOP_HOME=/usr/hadoop

export PATH=PATH:PATH:HADOOP_HOME/bin

那般slave的机器hadoop也安顿好了

 

3.8 启动Hadoop

格式化HDFS

hdfs namenode -format

 

启动hadoop

/usr/hadoop/sbin/start-dfs.sh

/usr/hadoop/sbin/start-yarn.sh

 

3.9查看集群和经过

 

jps//jps命令

 

/usr/hadoop/bin/hdfs dfsadmin -report
//查看集群 (结果没出来,有待修复)

 

火狐浏览器打开

Master.Hadoop:50070

Master.Hadoop:8088(结果没出去,有待修复)

Slaver1.Hadoop:8042

上边关于Hadoop的文章您也只怕喜欢,无妨看看:

Ubuntu14.04下Hadoop2.4.1单机/伪布满式安装配置教程 
http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS设置和陈设Hadoop2.2.0 
http://www.linuxidc.com/Linux/2014-01/94685.htm

CentOS 6.3下Hadoop伪遍及式平台搭建 
http://www.linuxidc.com/Linux/2016-11/136789.htm

Ubuntu 14.04 LTS下安装Hadoop 1.2.1(伪遍及方式)
http://www.linuxidc.com/Linux/2016-09/135406.htm

Ubuntu上搭建Hadoop意况(单机形式+伪布满形式)
http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu下Hadoop意况的配备
http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建Hadoop处境图像和文字化教育程详解
http://www.linuxidc.com/Linux/2012-02/53927.htm

Hadoop 2.6.0 HA高可用集群配置详解 
http://www.linuxidc.com/Linux/2016-08/134180.htm

Spark 1.5、Hadoop 2.7 集群景况搭建 
http://www.linuxidc.com/Linux/2016-09/135067.htm

越多Hadoop相关音信见Hadoop 专项论题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文恒久更新链接地址:http://www.linuxidc.com/Linux/2016-11/137217.htm

CA88新登入 1

注:Hadoop2.0以上选择的是jdk碰着是1.7,Linux自带的jdk卸载掉,重新安装

1.2条件认证

下载地址:

master    192.168.0.201

软件版本:hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

slave    192.168.0.220

下载地址:

多少个节点都是CentOS 7

c1:192.168.58.11

1.3意况准备

c2:192.168.58.12

永远关闭防火墙和selinux

c3:192.168.58.13

systemctl  disable firewalld
systemctl  stop    firewalld
setenforce  0

二、安装JDK(略)见上边的参考小说

1.4互联网布局

三、配置情形变量 (配置jdk和hadoop的情状变量)

两台修改主机名:master/salve

四、系统布局

设置hosts,能相互分析

1停歇防火墙

1.5配置ssh互信

chkconfig iptables off(永世性关闭)

 master
  yum  -y install  sshpass
  ssh-keygen 一路回车
  ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.220
slave
  yum  -y install  sshpass
  ssh-keygen 一路回车
  ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.201
测量检验ssh对方主机,不提示输入密码则OK

安顿主机名和hosts文件

2.安装JDK

2、SSH无密码验证配置

两台机器都装

因为Hadoop运维进度须求远程管理Hadoop的医生和医护人员进度,NameNode节点须求经过SSH(Secure
Shell)链接各样DataNode节点,截止或运营他们的进度,所以SSH必须是未曾密码的,所以大家要把NameNode节点和DataNode节点配制作而成无暧昧通信,同理DataNode也急需布置无密码链接NameNode节点。

tar zxvf jdk-8u65-linux-x64.tar.gz
mv jdk1.8.0_65  /usr/jdk

在每一台机器上配备:

2.1安装意况变量

vi /etc/ssh/sshd_config打开

两台机械都设置

RSAAuthentication yes # 启用 RSA 认证,PubkeyAuthentication yes #
启用公钥私钥配对证真实情状势

export JAVA_HOME=/usr/jdk
export JRE_HOME=/usr/jdk/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
执行 source  /etc/profile

Master01:运维:ssh-keygen –t rsa –P ”  不输入密码直接enter

3.测试JDK

暗中认可寄存在 /root/.ssh目录下,

java -version

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3.1安装Hadoop

[root@master01 .ssh]# ls

官网下载CDH-2.6-hadoop:archive.cloudera.com/cdh5