功能型网站案例泰安网络宣传
文章目录
- 项目地址
 - 一、Spark
 - 1. RDD
 - 1.1 五大核心属性
 - 1.2 执行原理
 - 1.3 四种创建方式
 
- 二、Kafka
 - 2.1 生产者
 - (1)分区器
 - (2)生产者提高吞吐量
 - (3) 生产者数据可靠性
 - 数据传递语义
 - 幂等性和事务
 - 数据有序
 
- 2.2 Broker
 - (1)Broker工作流程
 - (2)节点服役和退役
 
- 2.3 副本
 - (1)Follower故障细节
 - (2)生产经验——Leader Partition负载均衡
 - (3)生产经验——增加副本因子
 
- 2.4 文件存储
 - (1)文件清理策略
 - (2) 高效读写数据
 
项目地址
- 教程作者:
 - 教程地址:
 
 
- 代码仓库地址:
 
 
- 所用到的框架和插件:
 
dbt 
airflow
 
一、Spark
1. RDD

1.最小计算单元,读取数据时,进行了分区partition,然后将partion交给task 执行
- 弹性存储:内存和磁盘自动切换
 - 容错:丢失数据自动恢复
 - 计算:计算出错重试
 - 分片:根据需要重新分片
 
1.1 五大核心属性
- 分区列表:RDD数据结构存在分区列表,用于执行并行计算,实现分布式计算的重要
 - 分区计算函数:使用同一个计算函数,对每一个分区进行计算
 - RDD依赖关系:多个RDD形成的依赖关系,通过依赖关系形成列表
 - 分区器:将数据进行分区处理
 - 首选位置:
 
1.2 执行原理
- Spark 框架在执行时,先申请资源,创建调度节点和计算节点,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。

 
1.3 四种创建方式
- 从集合(内存)创建
 - 从外部存储(文件)创建RDD
 - 从其他的RDD创建
 - 直接创建RDD(NEW)
 
二、Kafka
- 教程地址
 - 整体架构

 - kafka功能:
 
- 缓存消峰
 - 解耦
 - 异步通讯
 
- 消息模式: <
 
