• 在线客服

  • 扫描二维码
    下载博学谷APP

  • 扫描二维码
    关注博学谷微信公众号

  • 意见反馈

原创 Hadoop基础知识快速入门

发布时间:2019-08-08 20:13:01 浏览 6572 来源:博学谷资讯 作者:照照

    学习大数据的同学都知道,Hadoop是一个很重要的知识点。本文主要概括了Hadoop的定义、优势和作用,带大家了解Hadoop基础知识能够快速入门。

     

    Hadoop基础知识快速入门

     

    1、Hadoop的定义

     

    一句话概括:Hadoop就是存储海量数据和分析海量数据的工具。

     

    Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFSMapReduce。

     

    HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

     

    MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

     

    2、Hadoop的优势

     

    高可靠性 : Hadoop 按位存储和处理数据的能力值得人们信赖。

     

    高扩展性 : Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以干计的节点中。

     

    高效性 : Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

     

    高容错性 : Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分。

     

    低成本 : 与一体机、商用数据仓库以及 QlikView、 Yonghong Z- Suites 等数据集市相比,Hadoop 是开源的,项目的软件成本因此会大大降低。

     

    Hadoop 带有用 Java 语言编写的框架,因此运行在 linux 生产平台上是非常理想的, Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

     

    3、Hadoop可以做什么

     

    大数据存储:分布式存储

     

    日志处理:擅长日志分析

     

    ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

     

    机器学习: 比如Apache Mahout项目

     

    搜索引擎:Hadoop + lucene实现

     

    据挖掘:目前比较流行的广告推荐,个性化广告推荐

     

    Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

     

    以上就是Hadoop基础知识的快速入门讲解,大家都弄清楚了吗?

    申请免费试学名额    

在职想转行提升,担心学不会?根据个人情况规划学习路线,闯关式自适应学习模式保证学习效果
讲师一对一辅导,在线答疑解惑,指导就业!

上一篇: 仅会使用Excel能做数据分析师吗? 下一篇: 云计算大数据好就业吗?未来前景如何?

相关推荐 更多

热门文章

  • 前端是什么
  • 前端开发的工作职责
  • 前端开发需要会什么?先掌握这三大核心关键技术
  • 前端开发的工作方向有哪些?
  • 简历加分-4步写出HR想要的简历
  • 程序员如何突击面试?两大招带你拿下面试官
  • 程序员面试技巧
  • 架构师的厉害之处竟然是这……
  • 架构师书籍推荐
  • 懂了这些,才能成为架构师
  • 查看更多

扫描二维码,了解更多信息

博学谷二维码