在线客服
扫描二维码
下载博学谷APP
扫描二维码
关注博学谷微信公众号
意见反馈

原创如何搭建hadoop平台？详细步骤讲解

发布时间：2019-08-08 15:46:19 浏览 9625 来源：博学谷资讯作者：照照

如何搭建hadoop平台？本文将详细讲解以下步骤：虚拟机及系统安装、在虚拟机中配置JAVA环境、修改hosts、修改hostname vim 、配置ssh、压缩包解压、修改hadoop配置文件、修改HBase配置、修改HBase配置、修改hive配置、修改sqoop配置、修改zookeeper配置等等，手把手指导大家搭建hadoop平台。

如何搭建hadoop平台

一、虚拟机及系统安装

1. 下载vmware，并成功安装；

2. 在vmware中安装CentOS系统；

二、在虚拟机中配置JAVA环境

1.安装java虚拟机（jdk-6u31-linux-i586.bin）；

2.配置环境变量

（1） vi /etc/profile （编辑文件）

（2）添加

（3） source /etc/profile （注入环境变量）

注：使用ROOT和户

三、修改hosts

vim /etc/hosts 修改为： 127.0.0.1 qiangjin

注：使用ROOT和户

四、修改hostname vim /etc/sysconfig/network

修改为： NETWORKING=yes HOSTNAME=qiangjin

临时修改hostname，使用

hostname qiangjin 查看当前hostname，使用

hostname 注：使用ROOT和户

五、配置ssh

1. 在当前用户主目录下执行

（1）ssh-keygen

（2）cat .ssh/id_rsa.pub 》》 .ssh/authorized_keys

（3）chmod 700 .ssh

（4）chmod 600 .ssh/authorized_keys

（5）ssh qiangjin 成功

六、压缩包解压

1. 解压hadoop-0.20.2-cdh3u3.tar.gz；

2. 解压hbase-0.90.4-cdh3u3.tar.gz；

3. 解压hive-0.7.1-cdh3u3.tar.gz；

4. 解压zookeeper-3.3.4-cdh3u3.tar.gz；

5. 解压sqoop-1.3.0-cdh3u3.tar.gz；

6. 解压mahout-0.5-cdh3u3.tar.gz；（数据挖掘算法专用）

注：tar –xvf xxxx.tar.gz

七、修改hadoop配置文件

（1）进入到cdh3/hadoop-0.20.2-cdh3u3/conf

（2）修改

core-site.xml

注：fs.default.name配置中用到了自己配的hostname；

（3）修改hdfs-site.xml

注：单机时，一般将dfs.replicaTIon设置为1

（4）修改

mapred-site.xml

注：mapred.job.tracker中用到了自己配的hostname；

（5）修改

Masters

（6）修改

slaves

（7）修改

hadoop-env.sh

需要添加环境变量

八、修改HBase配置

（1）进入cdh3/hbase-0.90.4-cdh3u3/conf

（2）修改hbase-site.xml

（3）修改

Regionserver

（4）修改

hbase-env.sh

需要添加环境变量

九、修改hive配置

（1）进入cdh3/hive-0.7.1-cdh3u3/conf

（2）添加hive-site.xml，并配置

注：需要注意hbase.zookeeper.quorum、mapred.job.tracker、hive.exec.scratchdir、javax.jdo.opTIon.ConnecTIonURL、

javax.jdo.opTIon.ConnectionUserName、javax.jdo.option.ConnectionPassword处配置需要添加环境变量

十、修改sqoop配置

需要添加环境变量

十一、修改zookeeper配置

（1）进入cdh3/zookeeper-3.3.4-cdh3u3

（2）新建目录zookeeper-data

（3）进入zookeeper-data，并新建myid，里面填0

（4）进入cdh3/zookeeper-3.3.4-cdh3u3/conf

（5）修改

zoo.cfg

注：dataDir和server.0的配置；

需要添加环境变量

十二、修改mahout配置需要添加环境变量

十三、数据库JAR包

（1）将mysql-connector-java-5.1.6.jar放入到cdh3/hive-0.7.1-cdh3u3/lib

（2）将ojdbc14.jar放入到cdh3/sqoop-1.3.0-cdh3u3/lib

十四、hadoop首次format及启动，停止

1.hadoop的format hadoop namenode -format

2.hadoop的启动 start-all.sh

3.hadoop的停止 stop-all.sh

注：使用jps或ps查看hadoop是否启动，启动时如果有问题，会在屏幕上显示出来的。可以输入网址： http://qiangjin:50070 查看hadoop的运行情况

十五、启动hbase

（1）启动

hbase，命令如下： start-hbase.sh （2）停止

hbase，命令如下： stop-hbase.sh （3）进入hbase的

shell，命令如下 hbase shell

（4）查看hbase中的表，命令如下（需进入到hbase shell中） list

（5）注：需要hadoop处于启动中。

注：需要hadoop处于启动中。可以输入网址： http://qiangjin:60010

查看hbase的运行情况十六、启动zookeeper

（1）启动zookeeper，命令如下 zkServer.sh start

（2）停止zookeeper，命令如下 zkServer.sh stop

注：如果是单机情况下，hbase的启动会带动zookeeper的启动；

十七、启动hive

（1）启动hive，命令如下 hive

（2）查看表，命令如下：（必须在hive命令窗口下执行） show tables;

十八、运行wordcount实例

（1）新建file01和file02，并设置内容；

（2）在hdfs中建立一个input目录： Hadoop fs –mkdir input

（3）将file01和file02

拷贝到hdfs中 hadoop fs -copyFromLocal file0* input

（4）执行wordcount hadoop jar hadoop-examples-0.20.2-cdh3u3.jar wordcount input output

（5）查看结果 hadoop fs -cat output/part -r -00000

十九、将oracle数据导入hive

（1）进入cdh3/sqoop-1.3.0-cdh3u3/bin

（2）新建目录importdata

（3）进入目录importdata

（4）新建sh文件

oracle-test.sh

（5）执行。/ oracle- test.sh

（6）进入hive，查看是否导入成功；

注：hive导入使用的参数。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns --hive-import

二十、将oracle数据导入hbase

（1）进入cdh3/sqoop-1.3.0-cdh3u3/bin

（2）新建目录importdata

（3）进入目录importdata

（4）新建sh文件

oracle-hbase.sh

（5）执行。/ oracle-hbase.sh

（6）进入hbase shell，查看是否导入成功；

注：hbase导入使用的参数。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns -hbase-create-table --hbase-table $hbaseTableName --hbase-row-key ID --column-family cf1

二十一、配置hbase到hive的映射

（1）进入cdh3/hive-0.7.1-cdh3u3/bin

（2）新建目录mapdata

（3）进入mapdata

（4）新建

hbasemaphivetest.q

（5）执行

hive -f hbasemaphivetest.q

注：列之间要对应，类型要匹配；

二十二、mahout运行

1、运行example

（1）导入实例所用数据“synthetic_control.data”，在控制台运行 hadoop fs -put synthetic_control.data /user/liuhx/testdata/

（2）运行实例程序，在控制台运行，运行时间比较长，需要迭代10次

Hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

2、运行结果查看，输入命令

mahout vectordump --seqFile /user/liuhx/output/data/part-m-00000

3、图形化显示，输入以下命令

hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.display.DisplayKMeans

二十三、Eclipse配置

1、安装Eclipse

2、导入cdh3/hadoop-0.20.2-cdh3u3/src/contrib/eclipse-plugin工程

3、修改plugin.xml 主要更改runtime中jar包的配置；

4、运行Run As-》Eclipse Application

5、在运行得到的eclipse sdk中配置map/reduce location 在其中配置hadoop的运行环境

以上就是搭建hadoop平台的详细步骤讲解，都是干货哦！想要深入学习hadoop的小伙伴，可以上博学谷官网报名大数据课程，有更加详细优质的课程提供给大家。

大数据开发专业技能

— 申请免费试学名额 —

在职想转行提升，担心学不会？根据个人情况规划学习路线，闯关式自适应学习模式保证学习效果
讲师一对一辅导，在线答疑解惑，指导就业！

上一篇：大数据零基础入门书籍推荐下一篇：大数据培训班是骗局吗?大数据培训班到底坑不坑？

相关推荐 更多

大数据优化在SEO公司中的应用

大数据优化在SEO公司中的应用，搜索引擎优化可以通过浏览企业网站了解搜索引擎优化以及其业务需求。搜索引擎优化公司可能会更好地了解市场，并了解需要采取哪些措施以获得曝光率。企业可以保持领先于竞争对手的唯一方法是了解其目标市场以及他们的沟通方式。

8004

2019-05-13 12:06:20

大数据开发SEO优化
大数据核心技术：spark学习总结

想要学习大数据，一定要充分掌握大数据的核心技术：Hadoop、Strom、spark等等。Spark是一种与Hadoop像是的开源集群计算环境。它启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

10792

2019-06-19 17:37:43

大数据开发
云计算大数据培训班学费多少钱？

云计算大数据培训就业班学费多少钱？在互联网行业，云计算大数据技术可谓是夺人眼球，对于企业来说，云计算大数据技术为企业优化产业结构，大大节约了成本。对于从业者来说，提供了更多的就业机会，同时也让大家的加薪成为现实。从而很多同学想通过技术培训就业班进入云计算大数据技术领域。现在云计算大数据培训机就业班学费多少钱？

9228

2019-12-05 15:48:33

大数据开发大数据培训班培训多少钱
大数据笔记之分布式文件存储系统

现在是大数据的时代，也是数据爆炸的时代，如何处理大数据的存储成为了摆在人们面前的难题，因此分布式文件存储系统应用而生。同时分布式文件存储系统在大数据面试中，也是一个常常可以见到的考点之一。本文为大家梳理了相关的大数据知识点，感兴趣的小伙伴可以看一看。

6857

2019-11-05 16:26:09

大数据技术大数据开发
工信部测算到2025年中国大数据产业规模将突破3万亿元

工信部测算到2025年中国大数据产业规模将突破3万亿元，全球互联网、大数据、云计算、数字孪生、元宇宙等数字技术加速创新趋势，探讨数字科技革命和产业变革的新机遇，聚焦大数据与实体经济、社会治理、民生服务、乡村振兴的深度融合，发布一批大数据创新应用场景，探讨共享应用场景创新的价值。

3153

2022-06-09 15:29:53

大数据技术大数据开发