当前位置: 首页 > news >正文

冠辰网站建设全网营销型网站建站专家

冠辰网站建设,全网营销型网站建站专家,做废旧哪个网站好,首饰网站模板Hive引擎包括:默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化&#xff0…

Hive引擎包括:默认MR、Tez、Spark

不更换引擎hive默认的就是MR。

MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。

Spark on Hive

就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息,spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据,接下来就可以通过spark sql来操作hive表中的数据

Hive on Spark效率要低于Spark on Hive

前者只有计算引擎是Spark,前期解析,转换,优化等步骤都是Hive完成。

后者只有元数据用了Hive,对SQL的解析,转换,优化等都是Spark完成。

Tez

Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业

Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Tez和Mapreduce区别

核心思想:MapReduce将一个算法抽象成Map和Reduce两个阶段进行处理;Tez将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等依赖DAG:Mapreduce没有DAG一说,Tez将map和reduce阶段拆分成多个阶段,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业落地磁盘:MapReduce会有多次落地磁盘;Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少。

Tez和Spark区别

使用场景:spark更像是一个通用的计算引擎,提供内存计算,实时流处理,机器学习等多种计算方式,适合迭代计算;tez作为一个框架工具,特定为hive和pig提供批量计算运行模式:spark属于内存计算,支持多种运行模式,可以跑在standalone,yarn上;而tez只能跑在yarn上;虽然spark与yarn兼容,但是spark不适合和其他yarn应用跑在一起资源利用:tez能够及时的释放资源,重用container,节省调度时间,对内存的资源要求率不高; 而spark如果存在迭代计算时,container一直占用资源;

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

冲突

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务,同一个HDFS分区目录下会创建一个文件文件夹,这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用spark或者mr,这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束,其他人使用同一种引擎,

所以tez在使用中抛弃。我们最中选择了spark引擎。

MapReduce: 是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,每个阶段都是用键值对(key/value)作为输入和输出,非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性地返回它所完成的工作和最新的状态。如果一个节点在设定的时间内没有进行心跳上报,主节点(可以理解为主服务器)就会认为这个节点down掉了,此时就会把分配给这个节点的数据发到别的节点上运算,这样可以保证系统的高可用性和稳定性。因此它是一个很好的计算框架。

TEZ:是基于Hadoop YARN之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等。这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业,从而可以减少Map/Reduce之间的文件存储,同时合理组合其子过程,也可以减少任务的运行时间。

Spark:Hive on Spark总体的设计思路是,尽可能重用Hive逻辑层面的功能;从生成物理计划开始,提供一整套针对Spark的实现,比如 SparkCompiler、SparkTask等,这样Hive的查询就可以作为Spark的任务来执行了

单从引擎的执行效率来说:Spark > TEZ > MapReduce

MR

计算,会对磁盘进行多次的读写操作,这样启动多轮job的代价略有些大,不仅占用资源,更耗费大量的时间 

TEZ

计算,就会生成一个简洁的DAG作业,算子跑完不退出,下轮继续使用上一轮的算子,这样大大减少磁盘IO操作,从而计算速度更快。 TEZ比MR至少快5倍(约值,反正是快,不必较真0.0) 

Spark

计算,DAG生成,Stage划分,比MR快10倍(约值,反正是快,不必较真0.0)与TEZ相比我选择Spark,一来快,二来奇葩问题比较少

http://www.yayakq.cn/news/521460/

相关文章:

  • 石家庄建设集团网站wordpress flickr相册
  • 用什么软件制作动画视频唐山网站关键词优化
  • 网站制作专业的公司哪家好中国空间站vr全景
  • 门户网站模板 免费常州新北区建设局网站
  • wordpress熊掌号展示seo必备工具
  • 网站自己维护招聘网站预算怎么做
  • 高端网站设计报价wordpress调用所有栏目
  • 个人网站如何做即时支付中文 wordpress 主题
  • 企业网站建设的注意事项邢台企业网站建设报价
  • 电信备案新增网站柳市网页设计
  • 深圳市罗湖建设局网站直播视频软件哪个好
  • 教育培训类网站设计北京推广
  • 上海校园兼职网站建设北京高端网站建设规划
  • 数据录入网站开发优帮云首页推荐
  • 企业官网网站模板做网站国内阿里云虚拟主机多少钱
  • 一个虚拟机怎么做两个网站WordPress指定IP访问
  • 银川网站开发公司wordpress新窗口打开所有外链
  • 昆山网站周村家具行业网站建设
  • 阿里云官方网站php 网站换空间
  • 专业专题网站建设广州网络推广建站
  • 达内网站开发学习培训wordpress读什么意思
  • 长尾关键词挖掘爱站工具学校做网站需要多少钱
  • 做网站构建wordpress微信h5登录
  • 苏州网站运营公司天津百度搜索排名优化
  • 阿里云可以几个网站我们便进入了()阶段答案
  • 湖北广盛建设集团网站营销型网站开发指的是什么
  • 免费个人主页网站营销型网站定制
  • 官方网站建设需要哪个部门审批免费的推广渠道有哪些
  • 鸿运通网站建设php精品网站建设
  • 扬州工程建设信息网站项目进度计划甘特图