当前位置：首页 > news >正文

郑州恩恩网站建设外包服务是什么意思

news 2025/11/9 14:46:42

郑州恩恩网站建设,外包服务是什么意思,做企业网站服务,网站说明怎么写概述目标： spark的工作原理spark数据处理通用流程rdd 什么是rddrdd 的特点 spark架构 spark架构相关进程spark架构原理 spark的工作原理 spark 的工作原理，如下图图中中间部分是spark集群，也可以是基于 yarn 的，图上可以…

概述

目标：

spark的工作原理
spark数据处理通用流程
rdd
- 什么是rdd
- rdd 的特点
spark架构
- spark架构相关进程
- spark架构原理

spark的工作原理

spark 的工作原理，如下图
在这里插入图片描述

图中中间部分是spark集群，也可以是基于 yarn 的，图上可以理解为spark的 standalone 集群，集群中有 6 个节点
左边是spark的客户端节点，这个节点主要的任务是向spark集群提交任务，
左边的 hdfs 是提交的任务所需要的数据源，当spark读取hdfs中的数据后，会将数据转化为rdd ，rdd是弹性分布式数据集，是一个逻辑概念，在此，可以先理解为一个数据集合就可，这个rdd是具有分区特性的，如节点1，节点2，节点3，这样可以轻易的提高数据的并发处理能力
接下来就可以对这rdd数据进行处理了，图中使用了，flatMap 函数，计算之后的结果还是一个带有分区的rdd，就是在节点4 ，节点5，节点6
当处理到最后一步的时候是需要将数据存起来的，实际工作中，针对离线计算的，大部分的结果数据都是存储在hdfs上的，也可以存储在其它的存储介质中。

针对上面几条，可以总结出，spark处理数据的基本构成，如下图
在这里插入图片描述

后面 spark 代码中基本都是这三板斧

rdd

rdd 是 spark 中一个很重要的概念

什么是`rdd`

在实际工作中，rdd 通常通过 hadoop 上的文件，即 hdfs 文件进行创建，也可以通过程序中的集合来创建，rdd是 spark 提供的核心抽象，全称为 Resillient Distributed Dataset ，即弹性分布式数据集

`rdd` 的特点

弹性：rdd 数据默认情况下是存储在内存中，但是在内存资源不足时，spark 也会自动将 rdd 数据写入磁盘
分布式： rdd 在抽象上来说是一种元素集合，它是被分区的，每个分区分布在集群中的不同节点上，从而让 rdd 中的数据可以被并行操作
容错性： rdd 最重要的特性就是提供了容错性，可以自动从节点失败中恢复过来，如果某个节点上的 rdd 分区，因为节点故障了，导致数据丢了，那么 rdd 会自动通过自己的数据来源重新计算该分区的数据

spark架构

下面熟悉一下 spark 架构相关的进程信息
注意： 在此是以 spark 的 standalone 集群为例进行分析，其实在 spark standalone环境安装中，成功后有查询对应的 进程 是否成功启动了

spark架构相关进程

driver：编写的 spark 程序就在driver(进程)上，由 driver 进程负责执行，driver 进程所在的节点可以是spark 集群的某一个节点，或者就是提交任务的客户端节点，具体driver进程在哪个节点上启动，是由提交任务时指定的参数决定的
master：集群的主节点中启动的进程，主要负责集群资源管理和分配，还有集群的监控等。
worker：集群的从节点中启动的进程，主要负责启动其它进程来执行具体的数据处理和计算任务
executor：此进程由worker 负责启动，主要为了执行数据处理和计算
taks：是一个线程，由executor 负责启动，是真正干活的

spark架构原理

如下图来看一spark的架构原理
在这里插入图片描述

在spark的客户端机器上通过driver进程执行的spark代码，通过spark-submit脚本提交spark任务的时候driver进程就启动了。
driver 启动之后，会做一些初始化操作，并找到集群的master 进程，对spark 程序进行注册
当master 收到 spark 程序注册成功之后，会向 worker 节点发送请求，进行资源调试和分配
worker 收到 master 请求后，为任务启动 executor 进程，启动多少个，会根据配置来启动
executor 启动之后会向 driver 进行注册，这样 driver 就能知道哪些 executor 在为它服务了
driver 会根据对 rdd 定义的操作，提交一堆的 task(map,flatMap等) 去 executor 上执行