在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创大数据面试题 Hadoop的联邦机制

发布时间：2019-07-09 18:53:58 浏览 16485 来源：博学谷资讯作者：照照

大数据学习需要掌握很多技术知识点，包括Linux、Zookeeper、Hadoop、Redis、HDFS、MapReduce、Hive、lmpala、Hue、Oozie、Storm、Kafka、Spark、Scala、SparkSQL、Hbase、Flink、机器学习等。今天主要和大家分享一下Hadoop的联邦机制。

<a href = 'https://www.boxuegu.com/news/data/' target='_blank' style='color: #466de2;font-size: 14px'>大数据</a>面试题 Hadoop的联邦机制

一、为什么会出现联邦？

Hadoop 的 NN 所使用的资源受所在服务的物理限制，不能满足实际生产需求。

二、联邦的实现

采用多台 NN 组成联邦。NN 是独立的，NN 之间不需要相互调用。NN 是联合的，同属于一个联邦，所管理的 DN 作为 block 的公共存储。block pool 的概念，每一个 namespace 都有一个 pool，datanodes 会存储集群中所有的 pool，block pool 之间的管理是独立的，一个 namespace 生成一个 blockid 时不需要跟其它 namespace 协调，一个 namenode 的失败也不会影响到 datanode对其它 namenodes 的服务。一个 namespace 和它的 block pool 作为一个管理单元，删除后，对应于datanodes 中的 pool 也会被删除。集群升级时，这个管理单元也独立升级。这里引入 clusterID 来标示集群所有节点。当一个 namenode format 之后，这个 id 生成，集群中其它 namenode 的 format 也用这个 id。

三、主要优点：

命名空间可伸缩性——联合添加命名空间水平扩展。DN 也随着 NN 的加入而得到拓展。

性能——文件系统吞吐量不是受单个Namenode 限制。添加更多的Namenode集群扩展文件系统读/写吞吐量。

隔离——隔离不同类型的程序，一定程度上控制资源的分配

四、配置：

联邦的配置是向后兼容的，允许在不改变任何配置的情况下让当前运行的单节点环境转换成联邦环境。新的配置方案确保了在集群环境中的所有节点的配置文件都是相同的。这里引入了 NameServiceID 概念，作为 namenodes 们的后缀。第一步：配置属性 dfs.nameservices，用于 datanodes 们识别 namenodes。第二步：为每个 namenode 加入这个后缀。

五、操作:

# 创建联邦，不指定 ID 会自动生成

$HADOOP_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

# 升级 Hadoop 为集群

$HADOOP_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR

-upgrade -clusterId <cluster_ID>

# 扩展已有联邦

$HADOOP_HOME/bin/hdfs dfsadmin -refreshNamenodes

<datanode_host_name>：<datanode_rpc_port>

# 退出联邦

$HADOOP_HOME/sbin/distribute-exclude.sh <exclude_file>

$HADOOP_HOME/sbin/refresh-namenodes.sh

什么是 CDH 下载地址： http：//archive.cloudera.com/cdh5/cdh/5/ CDH (Cloudera's Distribution， including Apache Hadoop)，是 Hadoop众多分支中的一种，由 Cloudera 维护，基于稳定版本的 Apache Hadoop 构建，并集成了很多补丁，可直接用于生产环境。

CDH 的优点：版本划分清晰

版本更新速度快

支持 Kerberos 安全认证文档清晰

支持多种安装方式（Cloudera Manager、YUM、RPM、Tarball）什么是 CM Cloudera Manager? 是为了便于在集群中进行 Hadoop

等大数据处理相关的服务安装和监控管理的组件，对集群中主机、Hadoop、Hive、Spark 等服务的安装配置管理做了极大简化。
Cloudera Manager 有四大功能：

（1）管理：对集群进行管理，如添加、删除节点等操作。

（2）监控：监控集群的健康情况，对设置的各种指标和系统运行情况进行全面监控。

（3）诊断：对集群出现的问题进行诊断，对出现的问题给出建议解决方案。

（4）集成：对 hadoop 的多组件进行整合。

以上就是小编整理的大数据面试题：Hadoop的联邦机制。

大数据开发大数据面试

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据对企业的意义是什么？有哪些大数据经典案例？下一篇：云计算大数据培训班怎么样？

相关推荐 更多

零基础参加大数据培训就业前景好不好？

零基础参加大数据培训就业前景好不好？回答这个问题不能一概而论，要具体问题具体分析。就目前的大数据就业形势分析，大数据人才的缺口是相当大的。当然大数据并不是一个低门槛的技术岗位，因此一些零基础想要转行的朋友就必须通过系统正规的培训，在熟练掌握大数据核心技术的基础上，才能在竞争日渐激烈的就业市场中脱颖而出。因此，参加一个靠谱的培训课程的重要性毋庸置疑。

7928

2020-01-03 15:32:59

大数据开发大数据入门
计算机大数据应用技术就业前景怎么样？

计算机大数据应用技术就业前景怎么样？作为目前最为广泛和热门的新兴技术，计算机大数据应用技术的意义不在于存储海量的的数据信息，而在于对这些数据进行专业化处理，从而更好地辅助工作中的各项决策。因此，掌握了计算机大数据应用技术，其就业前景自然广阔明亮无比。关于大数据的更多就业方向选择，我们可以看看以下的具体分析。

15873

2020-01-14 15:33:07

大数据技术大数据开发
大数据岗位基础要求有哪些？

大数据岗位基础要求:谈起大数据，当然少不了分析软件，这应该是做大数据工作的基础，但市场上有很多各种各样的分析软件，如果没有过人的经验，真的很难找到适合自己或者适合企业的。笔者通过各大企业对大数据相关行业的职位要求，归纳出如下要点：

7653

2020-07-06 14:22:39

大数据岗位大数据开发
Hadoop HDFS分布式文件系统原理及应用介绍

HDFS有着高容错性特点，且设计用来部署在低廉的硬件上，提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以实现流的形式访问文件系统中的数据。

6220

2021-04-13 16:30:33

大数据开发
Kafka的优势有哪些？经常应用在哪些场景？

Kafka的优势有哪些？经常应用在哪些场景？Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统，网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习一下吧！

6787

2022-03-22 15:11:36

大数据开发大数据课程