当前位置: 首页 > news >正文

制作网站比较大的几家公司安陆 网站建设

制作网站比较大的几家公司,安陆 网站建设,网站开发需求文档,做中考试卷的网站Hive引擎包括:默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化&#xff0…

Hive引擎包括:默认MR、Tez、Spark

不更换引擎hive默认的就是MR。

MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。

Spark on Hive

就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息,spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据,接下来就可以通过spark sql来操作hive表中的数据

Hive on Spark效率要低于Spark on Hive

前者只有计算引擎是Spark,前期解析,转换,优化等步骤都是Hive完成。

后者只有元数据用了Hive,对SQL的解析,转换,优化等都是Spark完成。

Tez

Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业

Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Tez和Mapreduce区别

核心思想:MapReduce将一个算法抽象成Map和Reduce两个阶段进行处理;Tez将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等依赖DAG:Mapreduce没有DAG一说,Tez将map和reduce阶段拆分成多个阶段,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业落地磁盘:MapReduce会有多次落地磁盘;Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少。

Tez和Spark区别

使用场景:spark更像是一个通用的计算引擎,提供内存计算,实时流处理,机器学习等多种计算方式,适合迭代计算;tez作为一个框架工具,特定为hive和pig提供批量计算运行模式:spark属于内存计算,支持多种运行模式,可以跑在standalone,yarn上;而tez只能跑在yarn上;虽然spark与yarn兼容,但是spark不适合和其他yarn应用跑在一起资源利用:tez能够及时的释放资源,重用container,节省调度时间,对内存的资源要求率不高; 而spark如果存在迭代计算时,container一直占用资源;

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

冲突

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务,同一个HDFS分区目录下会创建一个文件文件夹,这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用spark或者mr,这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束,其他人使用同一种引擎,

所以tez在使用中抛弃。我们最中选择了spark引擎。

MapReduce: 是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,每个阶段都是用键值对(key/value)作为输入和输出,非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性地返回它所完成的工作和最新的状态。如果一个节点在设定的时间内没有进行心跳上报,主节点(可以理解为主服务器)就会认为这个节点down掉了,此时就会把分配给这个节点的数据发到别的节点上运算,这样可以保证系统的高可用性和稳定性。因此它是一个很好的计算框架。

TEZ:是基于Hadoop YARN之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等。这样,这些分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业,从而可以减少Map/Reduce之间的文件存储,同时合理组合其子过程,也可以减少任务的运行时间。

Spark:Hive on Spark总体的设计思路是,尽可能重用Hive逻辑层面的功能;从生成物理计划开始,提供一整套针对Spark的实现,比如 SparkCompiler、SparkTask等,这样Hive的查询就可以作为Spark的任务来执行了

单从引擎的执行效率来说:Spark > TEZ > MapReduce

MR

计算,会对磁盘进行多次的读写操作,这样启动多轮job的代价略有些大,不仅占用资源,更耗费大量的时间 

TEZ

计算,就会生成一个简洁的DAG作业,算子跑完不退出,下轮继续使用上一轮的算子,这样大大减少磁盘IO操作,从而计算速度更快。 TEZ比MR至少快5倍(约值,反正是快,不必较真0.0) 

Spark

计算,DAG生成,Stage划分,比MR快10倍(约值,反正是快,不必较真0.0)与TEZ相比我选择Spark,一来快,二来奇葩问题比较少

http://www.yayakq.cn/news/793851/

相关文章:

  • 旅游网站建设项目中国最有名的建设网站
  • 网站的页面动态需要哪些方法做四大工业设计软件
  • 5050众筹网站开发成都住建局官网报名被挤爆黑幕
  • 手机微网站开发wordpress前台发布文章
  • 免费建设外贸网站广东深广东深圳网站建设
  • 如何优化营销型企业网站长尾关键词挖掘站长工具
  • 做网站的人属于什么行业2345网址大全浏览器
  • 广州 网站建设 020成都免费建站模板
  • 网站开发不用框架wordpress相册样式
  • 做一个app需要多少成本苏州网站搜索引擎优化
  • 如何建立一个网站来卖东西青岛工程建设管理信息网官方网站
  • 漳州微信网站建设电话专题网站开发 交互方法
  • 呼伦贝尔旅游包车网站咋做wordpress 怎么手动更新
  • wordpress顶部外贸网站建设平台优化营销推广
  • 个人网站备案申请自己建网站好还是用淘宝做好
  • 案例剖析网站wd网址怎么推广
  • 广东一站式网站建设推荐企业电话认证
  • 乡村网站建设鄞州区建设局网站
  • 网上服装商城网站代码怎么去做网站
  • 改变网站的域名空间交互式多媒体网站开发
  • 唐山做网站汉狮网络宝塔wordpress
  • 做58同城这样的网站wordpress 插件提示
  • 网站参考页面设计网页制作与网站建设题
  • 通化市网站建设广州最近传染病情况
  • 网站建设使用的什么企业做网上推广
  • 灵犀科技网站开发四川省工程信息造价网
  • 建设网站的工作网站建设Skype打不开
  • 网络营销中网站的目的是网上做设计的网站有哪些
  • 服装服饰设计网站最全黄页
  • 建设网站项目概况买了域名后怎么建立网址