在线客服
扫描二维码
下载博学谷APP扫描二维码
关注博学谷微信公众号
相信每一个大数据学习者都明白,Hadoop在大数据中的重要地位。Hadoop简称HDFS,它是是大数据的基础,所以大家一定要掌握好Hadoop的相关基础知识。本文主要是详细讲解Hadoop集群的基本概念、搭建步骤及注意事项。
一、Hadoop集群的基本概念。
Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,集群运行模式,相应概念如下:
1、独立模式即本地运行模式(standalone或local mode)无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。
2、伪分布运行模式伪分布:如果Hadoop对应的Java进程都运行在一个物理机器上,称为伪分布运行模式。
3、集群模式如果Hadoop对应的Java进程运行在多台物理机器上,称为集群模式。
二、Hadoop集群搭建步骤。
1.服务器准备
本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本:
Vmware 14.0
Centos 6.7 64bit
2.配置网卡
终端输入 vi /etc/sysconfig/neywork-scripts/ifcfg-eth0
输入IP地址,子网掩码,网卡,域名服务器
3.测试网卡配置是否正确
重启网络服务 输入 service network restart
输入 ping www.baidu.com 如果能ping通,则网卡配置成功
4.修改主机名
输入 vi /etc/sysconfig/network ,修改主机名
5.关闭防火墙
service iptables stop 仅仅关闭一次
chkconfig iptables off 永久关闭
6.安装ssh客户端
执行yum install -y openssh-clients
7.克隆服务器
关闭虚拟机,右键 > 管理 > 克隆,选择完整克隆
为克隆好的机子配置网卡,执行 vi /etc/udev/rules.d/70-persistent-net.rules
执行 vi /etc/sysconfig/neywork-scripts/ifcfg-eth0,修改IP地址即可
执行 vi /etc/sysconfig/network ,修改主机名为hadoop02
重复上述步骤,建立hadoop03服务器
重启每部机子,使网卡生效
8.hosts映射
执行 vi /etc/hosts,输入以下内容,在Windows的 C:\Windows\System32\drivers\etc\hosts下也输入以下内容
9.ssh链接及免密登录
在hadoop01服务器上输入 ssh hadoop02,测试ssh连接是否成功,
在hadoop01服务器上新建 vi Auto.sh文件,文件中写入免密脚本
执行脚本即可实现免密登录(只是单项免密)
10.安装JDK
1:把JDK安装包上传到linux
2 : 解压文件到安装目录 tar -zxvf /root/jdk-8u102-linux-x64.tar.gz -C /usr/local/
3 : 配置环境变量 vi /etc/profile,在末尾输入
export PATH=$PATH:$JAVA_HOME/bin
11.安装Hadoop
1 : 上传hadoop安装包
2 : 解压文件到安装目录 tar -zxvf /root/hadoop-2.8.3.tar.gz -C /usr/local/
3 : 进入hadoop安装目录下,cd hadoop-2.8.3/etc/hadoop下开始配置文件
4 : 执行vi /etc/hadoop/hadoop-env.sh JAVA_HOME在哪里
The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7.0_51
export JAVAHOME改为绝对路径
5 : 执行vi core-site.xml
6 : vi hdfs-site.xml
7 : 执行改名cp mapred-site.xml.tmp* mapred-site.xml
vi mapred-site.xml
8 : vi yarn-site.xml
9 : vi salves
10 : 配置环境变量 vi /etc/profile
12.另外两台服务器的JDK和hadoop安装
把第一台安装好的jdk和hadoop以及配置文件发送给另外两台
hosts文件 scp -r /etc/hosts/ hadoop02:/etc/
jdk安装后的文件夹 scp -r /usr/local/jdk1.8.0_102 hadoop02:/usr/local/
Hadoop安装后的文件夹scp -r /usr/local/hadoop-2.8.3 hadoop02:/usr/local/
/etc/profile 配置文件 scp -r /etc/profile hadoop02:/etc/
hadoop03做同样操作
13.启动Hadoop集群
初始化HDFS(在hadoop01进行操作)
bin/hadoop namenode -format
启动HDFS
启动YARN
hadoop集群搭建成功!
三、Hadoop集群搭建注意事项。
在初次搭建hadoop的过程难免会出现一些问题。诸如集群突然显示虚拟机出现了问题,导致某一个DataNode数据丢失 并且无法通过Xshell远程访问其他的DataNode 主机和虚拟机无法互相ping通,如果网上能找的解决办法基本都找了,却依然无法解决,就可以删除虚拟机,重新克隆一台机器。
关于大数据Hadoop集群搭建的相关知识就讲到这了。大家对大数据Hadoop集群搭建步骤讲解,还有什么不明白的地方,可以上博学谷官网在线学习。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据是什么?与数据之间有什么区别?
大数据是什么?从字面的理解我可以认为他是大量的数据,而在计算机网络领域则将大数据定义为需要更新处理模式才能具有更强的决策力,洞察发现力和流程优化能力来适应海量,高增长了和多样化的薪资资产。因此大数据不仅仅是在数据量的变化,好包括其增长速度以及多样化的特性。
13646
2019-06-06 15:48:59
大数据工程师干不过35岁?大数据职业发展前景如何?
大数据工程师干不过35吗?事实上,大数据工程师现在十分吃香,而且工作经验越高越抢手,不存在“干不过35岁”的说法。如果大家真的掌握了大数据技术,其职业发展前景是完全不用担心的。
15254
2019-08-26 09:40:43
大数据和人工智能有什么关系?
大数据和人工智能关注点不同,但有密切联系。人工智能需要大量的数据作为思考和决策的基础;大数据需要人工智能技术进行数据价值化操作。在大数据价值的两个主要体现当中,数据应用主要渠道之一就是人工智能产品,为智能体提供的数据量越大,智能体运行的效果就会越好,智能体通常需要大量的数据进行训练和验证,保障运行可靠性和稳定性。
17437
2020-04-27 15:44:25
Zookeeper基本知识总结
本文为大家整理总结了Zookeeper的基本知识,主要内容有Zookeeper概述、ZooKeeper特性、ZooKeeper集群角色以及ZooKeeper集群搭建。下面一起来看看大数据学习中的干货知识吧~
4736
2020-06-11 19:12:50
大数据开发和大数据分析该怎么选择?
大数据开发主要是负责大数据挖掘,大数据清洗处理,大数据建模等,负责大规模数据的处理和应用,工作以开发为主与大数据可视化分析工程师相互配合,从数据中挖掘出价值为企业业务发展提供支持。
3961
2021-01-15 10:09:54