集团站切换校区

验证码已发送,请查收短信

复制成功
微信号:togogoi
添加微信好友, 详细了解课程
已复制成功,如果自动跳转微信失败,请前往微信添加好友
打开微信
图标

业界新闻

当前位置:首页 > >业界新闻 > >

Hadoop框架

发布时间: 2022-03-09 14:35:54

将Hadoop称作框架其实并不准确,更多人喜欢称Hadoop为生态圈,因为它除了有计算和存储功能外还提供了相当多的组件,来完成大数据方方面面的工作。


Hadoop生态圈的组件非常多,图1所示为Hadoop 1.0环境中的生态圈组成,爬虫工具、集群化存储、工作流、数据流、交互式脚本、NoSQL数据库、数据仓库、数据挖掘框架,几乎是应有尽有。


Hadoop框架

图1 Hadoop生态圈


现在在生产环境中,通常使用Hadoop 2.0环境。通常说的Hadoop只是其中最核心的框架,主要分为以下4个部分。


(1)Hadoop Common:这是Hadoop的核心功能,是对其他的Hadoop模块做支撑的,里面包含了大量的对底层文件、网络的访问,对数据类型的支持,以及对象的序列化、反序列化的操作支持等。


(2)Hadoop Distributed File System(HDFSTM):Hadoop分布式文件系统,也就是上面提到的HDFS,它用于存储大量的数据。


(3)Hadoop YARN:一个任务调度和资源管理的框架。


(4)Hadoop MapReduce:基于YARN的并行大数据处理组件。请注意Hadoop 1.0和Hadoop 2.0的区别,如图2所示。Hadoop 1.0环境的MapReduce是直接运行的,Hadoop 2.0环境的MapReduce依赖于YARN框架,在YARN框架启动后,MapReduce在需要运行的时候把任务提交给YARN框架,让YARN框架来分配资源择机运行,这是两者较大的区别。


图2 Hadoop 1.0和Hadoop 2.0


一般把Hadoop Common、HDFS、YARN、MapReduce这四部分统称为Hadoop框架,而在Hadoop生态环境中还有进行SQL化管理HDFS的Hive组件,支持OLTP业务的NoSQL分布式数据库HBase组件,进行图形界面管理的Ambari组件等,Hadoop生态圈会增加越来越多的软件,提高软件的便利性。

上一篇: MapReduce原理

下一篇: linux文件与目录基本命令

在线咨询 ×

您好,请问有什么可以帮您?我们将竭诚提供最优质服务!