原创 如何搭建hadoop平台?详细步骤讲解

发布时间:2019-08-08 15:46:19 浏览 6490 来源:博学谷资讯 作者:照照

    如何搭建hadoop平台?本文将详细讲解以下步骤:虚拟机及系统安装、在虚拟机中配置JAVA环境、修改hosts、修改hostname vim 、配置ssh、压缩包解压、修改hadoop配置文件、修改HBase配置、修改HBase配置、修改hive配置、修改sqoop配置、修改zookeeper配置等等,手把手指导大家搭建hadoop平台。

     

    如何搭建hadoop平台

     

    一、虚拟机及系统安装

     

    1. 下载vmware,并成功安装;

     

    2. 在vmware中安装CentOS系统;

     

    二、在虚拟机中配置JAVA环境

     

    1.安装java虚拟机(jdk-6u31-linux-i586.bin);

     

    2.配置环境变量

     

    (1) vi /etc/profile (编辑文件)

     

    (2) 添加

     

    (3) source /etc/profile (注入环境变量)

     

    注:使用ROOT和户

     

    三、修改hosts

     

    vim /etc/hosts 修改为: 127.0.0.1 qiangjin

     

    注:使用ROOT和户

     

    四、修改hostname vim /etc/sysconfig/network

     

    修改为: NETWORKING=yes HOSTNAME=qiangjin

     

    临时修改hostname,使用

     

    hostname qiangjin 查看当前hostname,使用

     

    hostname 注:使用ROOT和户

     

    五、配置ssh

     

    1. 在当前用户主目录下执行

     

    (1)ssh-keygen

     

    (2)cat .ssh/id_rsa.pub 》》 .ssh/authorized_keys

     

    (3)chmod 700 .ssh

     

    (4)chmod 600 .ssh/authorized_keys

     

    (5)ssh qiangjin 成功

     

    六、压缩包解压

     

    1. 解压hadoop-0.20.2-cdh3u3.tar.gz;

     

    2. 解压hbase-0.90.4-cdh3u3.tar.gz;

     

    3. 解压hive-0.7.1-cdh3u3.tar.gz;

     

    4. 解压zookeeper-3.3.4-cdh3u3.tar.gz;

     

    5. 解压sqoop-1.3.0-cdh3u3.tar.gz;

     

    6. 解压mahout-0.5-cdh3u3.tar.gz;(数据挖掘算法专用)

     

    注:tar –xvf xxxx.tar.gz

     

    七、修改hadoop配置文件

     

    (1)进入到cdh3/hadoop-0.20.2-cdh3u3/conf

     

    (2)修改

     

    core-site.xml

     

    注:fs.default.name配置中用到了自己配的hostname;

     

    (3)修改hdfs-site.xml

     

    注:单机时,一般将dfs.replicaTIon设置为1

     

    (4)修改

     

    mapred-site.xml

     

    注:mapred.job.tracker中用到了自己配的hostname;

     

    (5)修改

     

    Masters

     

    (6)修改

     

    slaves

     

    (7)修改

     

    hadoop-env.sh

     

    需要添加环境变量

     

    八、修改HBase配置

     

    (1)进入cdh3/hbase-0.90.4-cdh3u3/conf

     

    (2)修改hbase-site.xml

     

    (3)修改

     

    Regionserver

     

    (4)修改

     

    hbase-env.sh

     

    需要添加环境变量

     

    九、修改hive配置

     

    (1)进入cdh3/hive-0.7.1-cdh3u3/conf

     

    (2)添加hive-site.xml,并配置

     

    注:需要注意hbase.zookeeper.quorum、mapred.job.tracker、hive.exec.scratchdir、javax.jdo.opTIon.ConnecTIonURL

     

    javax.jdo.opTIon.ConnectionUserName、javax.jdo.option.ConnectionPassword处配置 需要添加环境变量

     

    十、修改sqoop配置

     

    需要添加环境变量

     

    十一、修改zookeeper配置

     

    (1)进入cdh3/zookeeper-3.3.4-cdh3u3

     

    (2)新建目录zookeeper-data

     

    (3)进入zookeeper-data,并新建myid,里面填0

     

    (4)进入cdh3/zookeeper-3.3.4-cdh3u3/conf

     

    (5)修改

     

    zoo.cfg

     

    注:dataDir和server.0的配置;

     

    需要添加环境变量

     

    十二、修改mahout配置 需要添加环境变量

     

    十三、数据库JAR包

     

    (1)将mysql-connector-java-5.1.6.jar放入到cdh3/hive-0.7.1-cdh3u3/lib

     

    (2)将ojdbc14.jar放入到cdh3/sqoop-1.3.0-cdh3u3/lib

     

    十四、hadoop首次format及启动,停止

     

    1.hadoop的format hadoop namenode -format

     

    2.hadoop的启动 start-all.sh

     

    3.hadoop的停止 stop-all.sh

     

    注:使用jps或ps查看hadoop是否启动,启动时如果有问题,会在屏幕上显示出来的。 可以输入网址: http://qiangjin:50070 查看hadoop的运行情况

     

    十五、启动hbase

     

    (1)启动

     

    hbase,命令如下: start-hbase.sh (2)停止

     

    hbase,命令如下: stop-hbase.sh (3)进入hbase的

     

    shell,命令如下 hbase shell

     

    (4)查看hbase中的表,命令如下(需进入到hbase shell中) list

     

    (5)注:需要hadoop处于启动中。

     

    注:需要hadoop处于启动中。 可以输入网址: http://qiangjin:60010

     

    查看hbase的运行情况 十六、启动zookeeper

     

    (1)启动zookeeper,命令如下 zkServer.sh start

     

    (2)停止zookeeper,命令如下 zkServer.sh stop

     

    注:如果是单机情况下,hbase的启动会带动zookeeper的启动;

     

    十七、启动hive

     

    (1)启动hive,命令如下 hive

     

    (2)查看表,命令如下:(必须在hive命令窗口下执行) show tables;

     

    十八、运行wordcount实例

     

    (1)新建file01和file02,并设置内容;

     

    (2)在hdfs中建立一个input目录: Hadoop fs –mkdir input

     

    (3)将file01和file02

     

    拷贝到hdfs中 hadoop fs -copyFromLocal file0* input

     

    (4)执行wordcount hadoop jar hadoop-examples-0.20.2-cdh3u3.jar wordcount input output

     

    (5)查看结果 hadoop fs -cat output/part -r -00000

     

    十九、将oracle数据导入hive

     

    (1)进入cdh3/sqoop-1.3.0-cdh3u3/bin

     

    (2)新建目录importdata

     

    (3)进入目录importdata

     

    (4)新建sh文件

     

    oracle-test.sh

     

    (5)执行。/ oracle- test.sh

     

    (6)进入hive,查看是否导入成功;

     

    注:hive导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns --hive-import

     

    二十、将oracle数据导入hbase

     

    (1)进入cdh3/sqoop-1.3.0-cdh3u3/bin

     

    (2)新建目录importdata

     

    (3)进入目录importdata

     

    (4)新建sh文件

     

    oracle-hbase.sh

     

    (5)执行。/ oracle-hbase.sh

     

    (6)进入hbase shell,查看是否导入成功;

     

    注:hbase导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns -hbase-create-table --hbase-table $hbaseTableName --hbase-row-key ID --column-family cf1

     

    二十一、配置hbase到hive的映射

     

    (1)进入cdh3/hive-0.7.1-cdh3u3/bin

     

    (2)新建目录mapdata

     

    (3)进入mapdata

     

    (4)新建

     

    hbasemaphivetest.q

     

    (5)执行

     

    hive -f hbasemaphivetest.q

     

    注:列之间要对应,类型要匹配;

     

    二十二、mahout运行

     

    1、运行example

     

    (1)导入实例所用数据“synthetic_control.data”,在控制台运行 hadoop fs -put synthetic_control.data /user/liuhx/testdata/

     

    (2)运行实例程序,在控制台运行,运行时间比较长,需要迭代10次

     

    Hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

     

    2、运行结果查看,输入命令

     

    mahout vectordump --seqFile /user/liuhx/output/data/part-m-00000

     

    3、图形化显示,输入以下命令

     

    hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.display.DisplayKMeans

     

    二十三、Eclipse配置

     

    1、安装Eclipse

     

    2、导入cdh3/hadoop-0.20.2-cdh3u3/src/contrib/eclipse-plugin工程

     

    3、修改plugin.xml 主要更改runtime中jar包的配置;

     

    4、运行Run As-》Eclipse Application

     

    5、在运行得到的eclipse sdk中配置map/reduce location 在其中配置hadoop的运行环境

     

    以上就是搭建hadoop平台的详细步骤讲解,都是干货哦!想要深入学习hadoop的小伙伴,可以上博学谷官网报名大数据课程,有更加详细优质的课程提供给大家。

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

上一篇: 大数据零基础入门书籍推荐 下一篇: 大数据培训班是骗局吗?大数据培训班到底坑不坑?

相关推荐 更多

热门文章

  • 简历加分-4步写出HR想要的简历
  • 程序员如何突击面试?两大招带你拿下面试官
  • 程序员面试技巧
  • 架构师的厉害之处竟然是这……
  • 架构师书籍推荐
  • 懂了这些,才能成为架构师
  • 学好编程的必备素养,你有么?
  • 数据分析师到底是干啥的?
  • 数据分析值不值得学
  • 数学盲,可以学数据分析吗?
  • 查看更多

扫描二维码,了解更多信息

博学谷二维码