在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创 Hadoop集群动态扩容讲解

发布时间：2020-06-08 10:56:55 浏览 7310 来源：博学谷作者：照照

今天本文要讲解的是Hadoop集群动态扩容的内容，那么什么是动态扩容呢？数据量随着公司业务的增长越来越大，原有的datanode节点的容量，已经不能满足存储数据的需求，需要在原有集群基础上，动态添加新的数据节点，这就是我们说的动态扩容。下面一起来看看基础准备、添加datanode、datanode负载均衡服务、添加nodemanager等相关内容吧~

Hadoop集群动态扩容

1、基础准备

在基础准备部分，主要是设置 hadoop 运行的系统环境

修改新机器系统 hostname（通过/etc/sysconfig/network 进行修改）

[root@node-4 ~]# cat /etc/sys conf 1g/network

NE TWORKING=yes

HOS TNAME=node -4

[r oot@node-4 ~ ] #

修改 hosts 文件，将集群所有节点 hosts 配置进去（集群所有节点保持hosts文件统一）

rootenode-1 -]# cat /etc/hosts

127.0.0.1 localhost localhost. localdomain localhost4 localhost4. local domain4

: :1 localhost localhost. localdomain localhost6 localhost6. local domain6

192.168.227.151 node-1

192.168.227.152 node-2

192.168.227.153 node-3

192.168.227.154 node-4

rootenode-1 ~]#

设置 NameNode 到 DataNode 的免密码登录（ssh-copy-id 命令实现）

修改主节点 slaves 文件，添加新增节点的 ip 信息（集群重启时配合一键启动脚本使用）

[root@node-1 J]# vim /export/servers/hadoop-2 .6. 0-cdh5.14.0/etc/hadoop/s laves

node-1

node-2

node-3

node-4

在新的机器上上传解压一个新的hadoop安装包，从主节点机器上将hadoop的所有配置文件，scp到新的节点上。

2、添加datanode

在namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop 目录下创建 dfs.hosts 文件

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop

vim dfs.hosts

添加如下主机名称（包含新服役的节点）

node-1

node-2

node-3

node-4

在 namenode 机器的 hdfs-site.xml 配置文件中增加 dfs.hosts 属性

cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop vim hdfs-site.xml

<name>dfs.hosts</name>

<value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts</value>

</property>

dfs.hosts 属性的意义：命名一个文件，其中包含允许连接到namenode的主机列表。必须指定文件的完整路径名。如果该值为空，则允许所有主机。相当于一个白名单，也可以不配置。

在新的机器上单独启动datanode：hadoop-daemon.sh start datanode

[root@node-4 ~]# hadoop-daemon.sh start datanode

starting datanode: logging to /export /servers/hadoop-2.6.0-cdh514 .0/ lops /hadoop root datanode -node-4 out

[root@node-4 ~]#

刷新页面就可以看到新的节点加入进来了

Hadoop集群动态扩容

3、datanode负载均衡服务

新加入的节点，没有数据块的存储，使得集群整体来看负载还不均衡。因此最后还需要对hdfs负载设置均衡，因为默认的数据传输带宽比较低，可以设置为64M，即hdfs dfsadmin -setBalancerBandwidth 67108864即可

默认balancer的threshold为10%，即各个节点与集群总的存储使用率相差不超过10%，我们可将其设置为5%。然后启动Balancer，sbin/start-balancer.sh -threshold 5，等待集群自均衡完成即可。

4、添加nodemanager

在新的机器上单独启动 nodemanager：

yarn-daemon.sh start nodemanager

Hadoop集群动态扩容

在ResourceManager，通过yarn node -list查看集群情况

Hadoop集群动态扩容

以上就是Hadoop集群动态扩容讲解的全部内容，如果你还想更加深入的学习相关内容，可以报名博学谷的大数据课程，在线学习相关视频课程，还有在线讲师一对一为你答疑解惑！

大数据技术大数据课程进阶提升

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇： HDFS安全模式学习总结下一篇：分布式系统学习笔记

相关推荐 更多

大数据是什么？有什么巨大价值？

随着市场经济的不断发展以及互联网科技的快速提升，信息流通的价值也越来越大，马云曾指出我们即将进入DT的时代。因此大数据成为炙手可热的关键因素。大数据更像是矿藏，不只是因为他的量大，而更在于这些数据背后所带来的的价值以及利益。那大数据到底是什么？他的背后隐含着什么样的巨大价值呢？

8572

2019-08-09 18:04:03

大数据开发大数据技术大数据入门
2020年云计算大数据课程学习大纲

本文将为大家分享2020年云计算大数据课程的一份学习大纲，本课程从大数据基础增强开始，内容精准聚焦大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等重要内容，涵盖了大数据体系中几乎所有的核心技术。如果大家对云计算大数据感兴趣的话，不妨来看看，对自己的学习规划也是有一定帮助的。

6416

2020-04-28 17:34:28

大数据课程课程大纲云计算
大数据开发离线计算框架知识点总结

大数据开发离线计算框架知识点总结，大数据在带来发展机遇的同时，也带来了新的挑战，催生了新技术的发展和旧技术的革新。大数据离线计算技术应用于静态数据的离线计算和处理，框架设计的初衷是为了解决大规模、非实时数据计算，更加关注整个计算框架的吞吐量。

6848

2020-07-16 16:41:14

大数据技术大数据框架
常见的实用型数据可视化工具有哪些？

数据可视化工具介绍，由于每个人的的技术水平和偏好不同这里分类介绍。零编程类：操作简单，无需编程基础，适合新手小白做一些基础性的图表可视化；开发工具类专业化的可视化工具，个性化程度高，适合专业的开发者或者工程师；专业图表类：针对性制作地图、时间轴、金融数据可视化工具。接下来我们就一起来看看吧

4519

2021-01-28 10:38:20

大数据技术数据分析工具
工信部测算到2025年中国大数据产业规模将突破3万亿元

工信部测算到2025年中国大数据产业规模将突破3万亿元，全球互联网、大数据、云计算、数字孪生、元宇宙等数字技术加速创新趋势，探讨数字科技革命和产业变革的新机遇，聚焦大数据与实体经济、社会治理、民生服务、乡村振兴的深度融合，发布一批大数据创新应用场景，探讨共享应用场景创新的价值。

3340

2022-06-09 15:29:53

大数据技术大数据开发