如何搭建hadoop平台?本文将详细讲解以下步骤:虚拟机及系统安装、在虚拟机中配置JAVA环境、修改hosts、修改hostname vim 、配置ssh、压缩包解压、修改hadoop配置文件、修改HBase配置、修改HBase配置、修改hive配置、修改sqoop配置、修改zookeeper配置等等,手把手指导大家搭建hadoop平台。
一、虚拟机及系统安装
1. 下载vmware,并成功安装;
2. 在vmware中安装CentOS系统;
二、在虚拟机中配置JAVA环境
1.安装java虚拟机(jdk-6u31-linux-i586.bin);
2.配置环境变量
(1) vi /etc/profile (编辑文件)
(2) 添加
(3) source /etc/profile (注入环境变量)
注:使用ROOT和户
三、修改hosts
vim /etc/hosts 修改为: 127.0.0.1 qiangjin
注:使用ROOT和户
四、修改hostname vim /etc/sysconfig/network
修改为: NETWORKING=yes HOSTNAME=qiangjin
临时修改hostname,使用
hostname qiangjin 查看当前hostname,使用
hostname 注:使用ROOT和户
五、配置ssh
1. 在当前用户主目录下执行
(1)ssh-keygen
(2)cat .ssh/id_rsa.pub 》》 .ssh/authorized_keys
(3)chmod 700 .ssh
(4)chmod 600 .ssh/authorized_keys
(5)ssh qiangjin 成功
六、压缩包解压
1. 解压hadoop-0.20.2-cdh3u3.tar.gz;
2. 解压hbase-0.90.4-cdh3u3.tar.gz;
3. 解压hive-0.7.1-cdh3u3.tar.gz;
4. 解压zookeeper-3.3.4-cdh3u3.tar.gz;
5. 解压sqoop-1.3.0-cdh3u3.tar.gz;
6. 解压mahout-0.5-cdh3u3.tar.gz;(数据挖掘算法专用)
注:tar –xvf xxxx.tar.gz
七、修改hadoop配置文件
(1)进入到cdh3/hadoop-0.20.2-cdh3u3/conf
(2)修改
core-site.xml
注:fs.default.name配置中用到了自己配的hostname;
(3)修改hdfs-site.xml
注:单机时,一般将dfs.replicaTIon设置为1
(4)修改
mapred-site.xml
注:mapred.job.tracker中用到了自己配的hostname;
(5)修改
Masters
(6)修改
slaves
(7)修改
hadoop-env.sh
需要添加环境变量
八、修改HBase配置
(1)进入cdh3/hbase-0.90.4-cdh3u3/conf
(2)修改hbase-site.xml
(3)修改
Regionserver
(4)修改
hbase-env.sh
需要添加环境变量
九、修改hive配置
(1)进入cdh3/hive-0.7.1-cdh3u3/conf
(2)添加hive-site.xml,并配置
注:需要注意hbase.zookeeper.quorum、mapred.job.tracker、hive.exec.scratchdir、javax.jdo.opTIon.ConnecTIonURL、
javax.jdo.opTIon.ConnectionUserName、javax.jdo.option.ConnectionPassword处配置 需要添加环境变量
十、修改sqoop配置
需要添加环境变量
十一、修改zookeeper配置
(1)进入cdh3/zookeeper-3.3.4-cdh3u3
(2)新建目录zookeeper-data
(3)进入zookeeper-data,并新建myid,里面填0
(4)进入cdh3/zookeeper-3.3.4-cdh3u3/conf
(5)修改
zoo.cfg
注:dataDir和server.0的配置;
需要添加环境变量
十二、修改mahout配置 需要添加环境变量
十三、数据库JAR包
(1)将mysql-connector-java-5.1.6.jar放入到cdh3/hive-0.7.1-cdh3u3/lib
(2)将ojdbc14.jar放入到cdh3/sqoop-1.3.0-cdh3u3/lib
十四、hadoop首次format及启动,停止
1.hadoop的format hadoop namenode -format
2.hadoop的启动 start-all.sh
3.hadoop的停止 stop-all.sh
注:使用jps或ps查看hadoop是否启动,启动时如果有问题,会在屏幕上显示出来的。 可以输入网址: http://qiangjin:50070 查看hadoop的运行情况
十五、启动hbase
(1)启动
hbase,命令如下: start-hbase.sh (2)停止
hbase,命令如下: stop-hbase.sh (3)进入hbase的
shell,命令如下 hbase shell
(4)查看hbase中的表,命令如下(需进入到hbase shell中) list
(5)注:需要hadoop处于启动中。
注:需要hadoop处于启动中。 可以输入网址: http://qiangjin:60010
查看hbase的运行情况 十六、启动zookeeper
(1)启动zookeeper,命令如下 zkServer.sh start
(2)停止zookeeper,命令如下 zkServer.sh stop
注:如果是单机情况下,hbase的启动会带动zookeeper的启动;
十七、启动hive
(1)启动hive,命令如下 hive
(2)查看表,命令如下:(必须在hive命令窗口下执行) show tables;
十八、运行wordcount实例
(1)新建file01和file02,并设置内容;
(2)在hdfs中建立一个input目录: Hadoop fs –mkdir input
(3)将file01和file02
拷贝到hdfs中 hadoop fs -copyFromLocal file0* input
(4)执行wordcount hadoop jar hadoop-examples-0.20.2-cdh3u3.jar wordcount input output
(5)查看结果 hadoop fs -cat output/part -r -00000
十九、将oracle数据导入hive
(1)进入cdh3/sqoop-1.3.0-cdh3u3/bin
(2)新建目录importdata
(3)进入目录importdata
(4)新建sh文件
oracle-test.sh
(5)执行。/ oracle- test.sh
(6)进入hive,查看是否导入成功;
注:hive导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns --hive-import
二十、将oracle数据导入hbase
(1)进入cdh3/sqoop-1.3.0-cdh3u3/bin
(2)新建目录importdata
(3)进入目录importdata
(4)新建sh文件
oracle-hbase.sh
(5)执行。/ oracle-hbase.sh
(6)进入hbase shell,查看是否导入成功;
注:hbase导入使用的参数 。./sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --m 1 --table $oracleTableName --columns $columns -hbase-create-table --hbase-table $hbaseTableName --hbase-row-key ID --column-family cf1
二十一、配置hbase到hive的映射
(1)进入cdh3/hive-0.7.1-cdh3u3/bin
(2)新建目录mapdata
(3)进入mapdata
(4)新建
hbasemaphivetest.q
(5)执行
hive -f hbasemaphivetest.q
注:列之间要对应,类型要匹配;
二十二、mahout运行
1、运行example
(1)导入实例所用数据“synthetic_control.data”,在控制台运行 hadoop fs -put synthetic_control.data /user/liuhx/testdata/
(2)运行实例程序,在控制台运行,运行时间比较长,需要迭代10次
Hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
2、运行结果查看,输入命令
mahout vectordump --seqFile /user/liuhx/output/data/part-m-00000
3、图形化显示,输入以下命令
hadoop jar mahout-examples-0.5-cdh3u3-job.jar org.apache.mahout.clustering.display.DisplayKMeans
二十三、Eclipse配置
1、安装Eclipse
2、导入cdh3/hadoop-0.20.2-cdh3u3/src/contrib/eclipse-plugin工程
3、修改plugin.xml 主要更改runtime中jar包的配置;
4、运行Run As-》Eclipse Application
5、在运行得到的eclipse sdk中配置map/reduce location 在其中配置hadoop的运行环境
以上就是搭建hadoop平台的详细步骤讲解,都是干货哦!想要深入学习hadoop的小伙伴,可以上博学谷官网报名大数据课程,有更加详细优质的课程提供给大家。
— 申请免费试学名额 —
在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!
相关推荐 更多
大数据优化在SEO公司中的应用
大数据优化在SEO公司中的应用,搜索引擎优化可以通过浏览企业网站了解搜索引擎优化以及其业务需求。搜索引擎优化公司可能会更好地了解市场,并了解需要采取哪些措施以获得曝光率。企业可以保持领先于竞争对手的唯一方法是了解其目标市场以及他们的沟通方式。
4807
2019-05-13 12:06:20
大数据的分析软件工具有哪些?都有什么用?
大数据的分析软件工具有哪些?都有什么用?总的来说,大数据有各种各样的分析软件工具,本文要跟大家介绍的是在一些领域被高频率使用,且不可缺少的大数据分析利器,即Excel、SPSS、SAS和stata。正是有了这些软件工具的存在,大数据的分析工作才能更加有效率。
4140
2019-10-16 16:50:27
大数据测试的发展和困境分析
随着大数据技术的日益深入发展,大数据测试应运而生。可以预见,大数据测试将成为软件测试工程师的发展目标之一。可能对于许多人来讲,大数据测试还是一个十分陌生的概念。实际上,大数据测试不同于传统的软件测试,在测试类型、策略和工具上,都有很大的不同。本文将为大家仔细分析一下大数据测试的发展和困境,下面我们一起来看看!
3390
2020-03-03 23:44:15
Pandas如何分块处理大文件?
在处理快手的用户数据时,碰到600M的txt文本,用sublime打开蹦了,用pandas.read_table()去读竟然花了小2分钟,打开有3千万行数据。仅仅是打开,要处理的话不知得多费劲。解决方法:读取文件的函数有两个参数:chunksize、iterator。原理分多次不一次性把文件数据读入内存中。
3066
2020-08-14 16:16:47
大数据自学要多久?为什么零基础自学大数据那么久?
伴随着大数据时代的冲击,大数据开发相关的技术人才成为目前招聘市场炙手可热的高薪岗位,越来越多想要通过技术获得高薪工作的同学选择大数据技术方向。我们知道目前学习大数据可以通过自学或者参加培训两种方式,参加大数据培训一般5-6个月就可以掌握大数据技术,那自学大数据的话要多久呢?
3264
2020-09-14 15:56:48
热门文章
- 目前Java架构师现状如何?前景怎么样?
- 大数据行业现在工作很难找吗?
- 和行业大咖1V1免费聊IT,这是头一次!
- 人工智能如何入门学习?前景如何
- 未来互联网人才还稀缺吗?哪些技术方向热门?
- 智能汽车用到哪些技术?
- 产品可行性分析需要考虑几个方面?
- 日常工作中程序员最讨厌哪些工作事项?
- 博学谷狂野大数据学习多长时间?
- IT互联网程序员的涨薪秘籍是什么? 查看更多
扫描二维码,了解更多信息
