当前位置: 首页 > news >正文

英文网站推荐机票网站建设方总1340812

英文网站推荐,机票网站建设方总1340812,做淘宝客网站需要备案吗,室内设计图网站有哪些Hadoop核心机制详细解析 Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。在现实的实例中,通过Hadoop,可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群,提供大数据量的存…

Hadoop核心机制详细解析

Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。在现实的实例中,通过Hadoop,可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群,提供大数据量的存储和处理能力。

作者:InBigData来源:InBigData|2012-07-0310:57

 移动端

 收藏

  分享

Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。在现实的实例中,通过Hadoop,可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群,提供大数据量的存储和处理能力。

知其然,知其所以然。要想深入学习和理解Hadoop的核心机制,还要从MapReduceHDFS的原理入手。

MapReduce大事化小

作为Google提出的架构,MapReduce通过Map(映射)和Reduce(化简)来实现大规模数据(TB级)的并行计算。可以简单理解为,通过Map(映射)函数,把一组键值对映射成一组新的键值对;指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce是一种大数据计算的开发模式和思想方法。开发人员先分析需求所提出问题的解决流程,找出数据可以并发处理的部分(Reduce),也就是那些能够分解为小段的可并行处理的数据,再将这些能够采用并发处理的需求写成Map程序(Map)。

然后就可以使用大量服务器来执行Map程序,并将待处理的庞大数据切割成很多的小份数据,由每台服务器分别执行Map程序来处理分配到的那一小段数据,接着再将每一个Map程序分析出来的结果,透过Reduce程序进行合并,最后则汇整出完整的结果。

MapReduce的整个流程就像

MapReduceHadoop分布式计算的关键技术,将要执行的问题,拆解成MapReduce的方式来执行,以达到分散运算的效果。例如要搜寻网页中的“In Big Data”这个词,可以先用Map程序,来计算出所有网页中,每一个词的位置。再使用Reduce程序,在每一个字的清单中,检索出“In Big Data”所对应的URL,您就来到了这个博客。MapReduce程序的执行过程如下:

MapReduce运行流程

MapReduce的运作方式就像快递公司一样。物流部门会将发往各地的包裹先运送到各地的物流分站,再由分站派出进行派送;快递员等每个包裹的用户签单后将数据反馈给系统汇总,完成整个快递流程。在这里,每个快递员都会负责配送,所执行的动作大致相同,且只负责少量的包裹,最后由物流公司的系统进行汇总(而不是从一个库房一个快递员直接发往各地;这样的话估计顺风、京东神马的会被人骂死)。

Hadoop集群架构中,服务器依据用途可分成Master节点和Worker节点,Master负责分配任务,而Worker负责执行任务。

Hadoop中的MasterWorker

Hadoop运算集群中的服务器依用途分成Master节点和Worker节点。Master节点中含有JobTrackerNameNodeTaskTrackerDataNode程序;Worker节点含有TaskTrackerDataNode。另外在系统的架构上,最简单的Hadoop架构,可以分成上层的MapReduce运算层以及下层的HDFS数据层。

Master节点的服务器中会执行两套程序:一个是负责安排MapReduce运算层任务的JobTracker,以及负责管理HDFS数据层的NameNode程序。而在Worker节点的服务器中也有两套程序,接受JobTracker指挥,负责执行运算层任务的是TaskTracker程序,与NameNode对应的则是DataNode程序,负责执行数据读写操作以及执行NameNode的副本策略。

MapReduce运算层上,担任Master节点的服务器负责分配运算任务,Master节点上的JobTracker程序会将MapReduce程序的执行工作指派给Worker服务器上的TaskTracker程序,由TaskTracker负责执行MapReduce工作,并将运算结果回复给Master节点上的JobTracker

HDFS数据层上,NameNode负责管理和维护HDFS的名称空间、并且控制档案的任何读写动作,同时NameNode会将要处理的数据切割成一个个档案区块(Block),每个区块是64MB,例如1GB的数据就会切割成16个档案区块。NameNode还会决定每一份档案区块要建立多少个副本,一般来说,一个档案区块总共会复制成3份,并且会分散储存到3个不同Worker服务器的DataNode程序中管理,只要其中任何一份档案区块遗失或损坏,NameNode会自动寻找位于其他DataNode上的副本来回复,维持3份的副本策略。

在一套Hadoop集群中,分配MapReduce任务的JobTracker只有1个,而TaskTracker可以有很多个。同样地,负责管理HDFS文件系统的NameNode也只有一个,和JobTracker同样位于Master节点中,而DataNode可以有很多个。

不过,Master节点中除了有JobTrackerNameNode以外,也会有TaskTrackerDataNode程序,也就是说Master节点的服务器也可以在本地端扮演Worker角色的工作。

在部署上,因为Hadoop采用Java开发,所以Master服务器除了安装操作系统如Linux之外,还要安装Java执行环境,然后再安装Master需要的程序,包括了NameNodeJobTrackerDataNodeTaskTracker。而在Worker服务器上,则只需安装LinuxJava环境、DataNodeTaskTracker

在之后的文章中将详细说明Hadoop安装部署方面的问题。这里只针对Hadoop的运行机制及内部细节做了讨论;在实际的应用中虽然还需要很多知识,但就理解HadoopMapReduce核心思想来说,以上的内容值得反复推敲。对技术,要知其然,知其所以然!

Hadoop核心机制详细解析-hadoop三大核心组件

http://www.yayakq.cn/news/751229/

相关文章:

  • 网站哪里买外链seo运营是什么
  • 网站ip pv值家居行业网站开发
  • 传媒公司手机网站模板网站开发小公司推荐
  • 做网站的公司msgg黑龙江省鹤岗市城乡建设局网站
  • 做电影网站服务器需求深圳大型网站开发
  • 锤子网站cms版本利用淘宝联盟做网站
  • 个人网站做的类型店铺设计装修图片
  • 博物馆门户网站建设优势加工平台用什么材料
  • 深圳网站设计公司哪家便宜wordpress rockgroup
  • 怎样做购物网站定制规划设计公司
  • 网站建设怎么学习网站开发快递
  • 现在用什么语言做网站最好看的免费观看视频西瓜
  • 工装设计案例网站短网址转换长网址
  • 网站案例 中企动力技术支持桂林两江四湖怎么玩
  • 做资讯类网站需要特殊资质吗重庆事业单位招聘
  • 做调查问卷赚钱的网站怎么注册一个自己的平台
  • 东莞常平建网站公司万网网站建设方法
  • 宿迁网站建设哪家最好中小企业信息网官网
  • 成都建设网站价格百度竞价排名榜
  • 邢台网站建设报价南头英文网站建设
  • 手机网站优化排名怎么做网页设计欣赏分析
  • 西宁建设网站多少钱做网站哪里找程序员
  • 做网页局域网站点配置wap手机建站平台
  • 集团为什么做网站网站外链建设工作计划
  • 国外做二手服装网站有哪些门户网站开发分类
  • 自己做网站价格做网站做百度竞价赚钱
  • 阿里巴巴网站建设方案书刷赞网站空间免费
  • 雅客网站建设通辽网站建设培训
  • pc端网站生成wap版做网站的上市公司有哪些
  • 天津网站建设公司小型创业项目