学习资源

思科

网络工程

华为

网络工程

红帽

系统运维

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

数据库

OCA

OCP

OCM

MySQL

微软

系统运维

MTA

MCSA

MCSE

软件开发

编程设计

Java

Android

HTML5

其他

Python

学习文章

当前位置：首页 > >学习文章 > >

spark的基本概念

发布时间： 2023-03-08 17:11:01

Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室，它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快，而且内置了丰富的API，使得我们能够更加容易编写程序，>本章将从Spark的发展说起，针对Spark集群部署、Spark运行架构及其原理进行详细讲解。

概述

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

spark的基本概念

Spark Core

Spark核心组件，实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含对弹性分布式数据集的API定义。

Spark SQL

用来操作结构化数据的核心组件，通过Spark SQL可直接查询Hive、HBase等多种外部数据源中的数据。Spark SQL的重要特点是能够统一处理关系表和RDD。

Spark Streaming

Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理，其核心原理是将流数据分解成一系列短小的批处理作业。

MLlib

Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能。

GraphX

Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口及丰富的功能和运算符，便于对分布式图处理的需求，能在海量数据上运行复杂的图算法。

独立调度器、Yarn、Mesos

集群管理器，负责Spark框架高效地在一个到数千个节点之间进行伸缩计算的资源管理。

spark特点

Spark计算框架在处理数据时，所有的中间数据都保存在内存中，从而减少磁盘读写操作，提高框架计算效率。同时Spark还兼容HDFS、Hive，可以很好地与Hadoop系统融合，从而弥补MapReduce高延迟的性能缺点。所以说，Spark是一个更加快速、高效的大数据计算平台。

spark的基本概念

spark的应用场景

数据科学

数据工程师可以利用Spark进行数据分析与建模，由于Spark具有良好的易用性，数据工程师只需要具备一定的SQL语言基础、统计学、机器学习等方面的经验，以及使用Python、Matlab或者R语言的基础编程能力，就可以使用Spark进行上述工作。

数据处理

大数据工程师将Spark技术应用于广告、报表、推荐系统等业务中，在广告业务中，利用Spark系统进行应用分析、效果分析、定向优化等业务，在推荐系统业务中，利用Spark内置机器学习算法训练模型数据，进行个性化推荐及热点点击分析等业务。

QQ空间新浪微博腾讯微博人人网微信更多

上一篇： NoSQL的基本概念

下一篇： MinIo是什么服务

十八年老品牌

微信咨询：gz_togogo 咨询电话：18922156670 咨询网站客服：在线客服

网络技术

系统运维

数据库

云计算

安全

大数据

人工智能

项目管理

软件开发

其他

优选课程

高校合作

企业定制

考试中心

学习资源

关于我们

学习文章

spark的基本概念

概述

spark特点

spark的应用场景

关于我们

联系我们

最新文章

客服热线

全国校区

友情链接

关注我们