当前位置: 首页 > news >正文

js素材网站石家庄网络科技有限公司

js素材网站,石家庄网络科技有限公司,做海外网站的公司,网络培训思想汇报第二章 SparkSQL 概述 Spark SQL允许开发人员直接处理RDD,同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD,使得开发人员可以轻松的使用SQL命令进行外部查询,同时进行更加复杂的数据分析。 2.1 前…

第二章 SparkSQL 概述

Spark SQL允许开发人员直接处理RDD,同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD,使得开发人员可以轻松的使用SQL命令进行外部查询,同时进行更加复杂的数据分析。

2.1 前世今生

SparkSQL模块一直到Spark 2.0版本才算真正稳定,发挥其巨大功能,发展经历如下几个阶段。
在这里插入图片描述
Shark 框架
首先回顾SQL On Hadoopp框架:Hive(可以说Hive时大数据生态系统中第一个SQL框架),架构如下所示:
在这里插入图片描述
可以发现Hive框架底层就是MapReduce,所以在Hive中执行SQL时,往往很慢很慢。
在这里插入图片描述
Spark出现以后,将HiveQL语句翻译成基于RDD操作,此时Shark框架诞生了。
在这里插入图片描述
Spark SQL的前身是Shark,它发布时Hive可以说是SQL on Hadoop的唯一选择(Hive负责将SQL编译成可扩展的MapReduce作业),鉴于Hive的性能以及与Spark的兼容,Shark由此而生。

Shark即Hive on Spark,本质上是通过Hive的HQL进行解析,把HQL翻译成Spark上对应的RDD操作,然后通过Hive的Metadata获取数据库里表的信息,实际为HDFS上的数据和文件,最后有Shark获取并放到Spark上计算。

但是Shark框架更多是对Hive的改造,替换了Hive的物理执行引擎,使之有一个较快的处理速度。然而不容忽视的是Shark继承了大量的Hive代码,因此给优化和维护带来大量的麻烦。为了更好的发展,Databricks在2014年7月1日Spark Summit上宣布终止对Shark的开发,将重点放到SparkSQL模块上。

文档:https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html
在这里插入图片描述
SparkSQL模块主要将以前依赖Hive框架代码实现的功能自己实现,称为Catalyst引擎
在这里插入图片描述
SparkSQL 模块
从Spark框架1.0开始发布SparkSQL模块开发,直到1.3版本发布SparkSQL Release版本可以在生产环境使用,此时数据结构为DataFrame = RDD + Schame。

1)、解决的问题

  • Spark SQL 执行计划和优化交给优化器 Catalyst;
  • 内建了一套简单的SQL解析器,可以不使用HQL;
  • 还引入和 DataFrame 这样的DSL API,完全可以不依赖任何 Hive 的组件;
    2)、新的问题
  • 对于初期版本的SparkSQL,依然有挺多问题,例如只能支持SQL的使用,不能很好的兼容命令式,入口不够统一等;

SparkSQL 在 1.6 时代,增加了一个新的API叫做 Dataset,Dataset 统一和结合了 SQL 的访问和命令式 API 的使用,这是一个划时代的进步。在 Dataset 中可以轻易的做到使用 SQL 查询并且筛选数据,然后使用命令式 API 进行探索式分析。

Spark 2.x发布时,将Dataset和DataFrame统一为一套API,以Dataset数据结构为主(Dataset
= RDD + Schema),其中DataFrame = Dataset[Row]。

在这里插入图片描述
Hive 与 SparkSQL
从SparkSQL模块前世今生可以发现,从Hive框架衍生逐渐发展而来,Hive框架提供功能SparkSQL几乎全部都有,并且SparkSQL完全兼容Hive,从其加载数据进行处理。
在这里插入图片描述
Hive是将SQL转为MapReduce,SparkSQL可以理解成是将SQL解析成RDD + 优化再执行。

http://www.yayakq.cn/news/989479/

相关文章:

  • 电商网站模版网站视频上传怎么做
  • 微网站预览金寨县重点工程建设管理局网站
  • 整容网站模板巨人科技网站建设
  • 网站建设的成功经验商丘网约车公司
  • 湘乡网站建设邮箱的官方网站注册
  • 网站建设属于什么费用网络营销是网上销售吗
  • 网站购物车功能怎么做页面设计怎么设计
  • 中文wordpress站点网站301跳跳转
  • 图书馆网站建设的规章制度南京公司网站建立
  • 深圳做模板网站网站开发会用到的框架
  • 手机网站描述手机网站合同
  • 佛山家居企业网站建设火车头wordpress 5.1
  • 西部数码网站管理助手v4.0wordpress主题路径
  • 制作类似网站软件wordpress 运行速度慢
  • 1m带宽做网站藁城外贸网站建设
  • go 语言 做网站惠安县住房和城乡规划建设局网站
  • 哪个网站买东西最便宜如何实现企业网站推广的系统性
  • 做实验教学视频的网站东道设计属于什么档次
  • 网站后台管理系统数据库接私活做网站设计
  • 做视频网站软件有哪些自动翻译wordpress中文标签别名为英文
  • 东台网站建设服务商做网站的业务逻辑
  • 怎么做企业网站优化个人简历模板下载免费
  • 基于python的网站开发项目网页小游戏网站有哪些
  • 突唯阿网站seo贵阳网站备案核验点照相
  • 许昌做网站九零后注销网站备案申请表
  • 建设个网站多少钱wordpress订阅者投稿
  • 成都网站建设优化公司网站开发设计文档模板
  • 网站怎么做评论营销型网站的目标
  • 网站建设企业站有哪些要求哪些企业需要做网站建设
  • 网站后台php开发教程济南网站营销