当前位置: 首页 > news >正文

网站建设图片如何优化文字怎么生成网址链接

网站建设图片如何优化,文字怎么生成网址链接,秦皇岛建设部网站,友情链接作用Mapreduce框架原理 1. InputFormat 数据输入1.1 切片与 MapTask 并行度决定机制1.2 Job 提交流程源码和切片源码详解1.2.1 Job 提交流程源码详解1.2.2 FileInputFormat 切片源码解析(input.getSplits(job)) 1.3 FileInputFormat 切片机制1.3.1 切片机制1…

Mapreduce框架原理

  • 1. InputFormat 数据输入
      • 1.1 切片与 MapTask 并行度决定机制
      • 1.2 Job 提交流程源码和切片源码详解
        • 1.2.1 Job 提交流程源码详解
        • 1.2.2 FileInputFormat 切片源码解析(input.getSplits(job))
      • 1.3 FileInputFormat 切片机制
        • 1.3.1 切片机制
        • 1.3.2 案例分析
        • 1.3.3 FileInputFormat切片大小的参数配置
      • 1.4 FileInputFormat的实现类
        • 1.4.1 TextInputFormat
        • 1.4.2 CombineTextInputFormat
  • 2. MapReduce 工作流程

在这里插入图片描述

1. InputFormat 数据输入

1.1 切片与 MapTask 并行度决定机制

1)问题引出
MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。

思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?

2)MapTask 并行度决定机制

  1. 数据块:Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。
  2. 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位,一个切片会对应启动一个MapTask。
    在这里插入图片描述

1.2 Job 提交流程源码和切片源码详解

1.2.1 Job 提交流程源码详解

在这里插入图片描述

1.2.2 FileInputFormat 切片源码解析(input.getSplits(job))
  1. 程序先找到你数据存储的目录。
  2. 开始遍历处理(规划切片)目录下的每一个文件
  3. 遍历第一个文件ss.txt
    3.1 获取文件大小fs.sizeOf(ss.txt)
    3.2 计算切片大小 - computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
    3.3 默认情况下,切片大小=blocksize
    3.4 开始切,形成第1个切片:ss.txt—0:128M 第2个切片ss.txt—128:256M 第3个切片ss.txt—256M:300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)
    3.5 将切片信息写到一个切片规划文件中
    3.6 整个切片的核心过程在getSplit()方法中完成
    3.7 InputSplit只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。
  4. 提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数。

1.3 FileInputFormat 切片机制

1.3.1 切片机制

(1)简单地按照文件的内容长度进行切片
(2)切片大小,默认等于Block大小
(3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

1.3.2 案例分析

(1)输入数据有两个文件:

file1.txt 320M
file2.txt 10M

(2)经过FileInputFormat的切片机制运算后,形成的切片信息如下:

file1.txt.split1-- 0~128
file1.txt.split2-- 128~256
file1.txt.split3-- 256~320
file2.txt.split1-- 0~10M

1.3.3 FileInputFormat切片大小的参数配置

(1)源码中计算切片大小的公式
Math.max(minSize, Math.min(maxSize, blockSize));
mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue
因此,默认情况下,切片大小=blocksize。
(2)切片大小设置
maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大。
(3)获取切片信息API
// 获取切片的文件名称
String name = inputSplit.getPath().getName();
// 根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit) context.getInputSplit();

1.4 FileInputFormat的实现类

思考:在运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制
格式文件、数据库表等。那么,针对不同的数据类型,MapReduce 是如何读取这些数据的呢?
FileInputFormat 常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、
NLineInputFormat、CombineTextInputFormat 和自定义 InputFormat 等。

1.4.1 TextInputFormat

TextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable 类型。值是这行的内容,不包括任何行终止 符(换行符和回车符),Text 类型。
以下是一个示例,比如,一个分片包含了如下 4 条文本记录。

Rich learning form
Intelligent learning engine
Learning more convenient
From the real demand for more close to the enterprise

每条记录表示为以下键/值对:

(0,Rich learning form)
(20,Intelligent learning engine)
(49,Learning more convenient)
(74,From the real demand for more close to the enterprise)
1.4.2 CombineTextInputFormat

框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。

1)应用场景:

CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理。

2)虚拟存储切片最大值设置

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。

3)切片机制

生成切片过程包括:虚拟存储过程和切片过程二部分。

下面是一个例子:
1)输入文件

a.txt 1.7M
b.txt 5.1M
c.txt 3.4M
d.txt 6.8M

2)虚拟存储过程

1.7M<4M 划分为一块 : 1.7M
5.1M>4M 但是小于24M 划分为二块 : 2.55M 2.55M
3.4M<4M 划分为一块 : 3.4M
6.8M>4M 但是小于2
4M 划分为二块 : 3.4M 3.4M
最终存储的文件一共6块,分别为1.7M 2.55M 2.55M 3.4M 3.4M 3.4M

3)切片过程

(a)判断虚拟存储的文件大小是否大于setMaxInputSplitSize值,大于等于则单独形成一个切片。
(b)如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
最终会形成3个切片,大小分别为:(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M

2. MapReduce 工作流程

在这里插入图片描述
在这里插入图片描述
上面的流程是整个 MapReduce 最全工作流程,但是 Shuffle 过程只是从第 7 步开始到第
16 步结束,具体 Shuffle 过程详解,如下:
(1)MapTask 收集我们的 map()方法输出的 kv 对,放到内存缓冲区中
(2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
(3)多个溢出文件会被合并成大的溢出文件
(4)在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序
(5)ReduceTask 根据自己的分区号,去各个 MapTask 机器上取相应的结果分区数据
(6)ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件,ReduceTask 会将这些文件再进行合并(归并排序)
(7)合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group,调用用户自定义的 reduce()方法)注意:

注:
(1)Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区 越大,磁盘 io 的次数越少,执行速度就越快。
(2)缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb 默认 100M。

http://www.yayakq.cn/news/694505/

相关文章:

  • 二手车网站开发多少钱沈阳建设工程信息网举报
  • 教育做的比较好的网站有哪些wordpress模板添加主题
  • 公司论坛网站建设规划书百元建站
  • wordpress头像解决seo设置是什么
  • 济南app网站建设网站建设需要提供功能目录吗
  • 曲周专业做网站老域名做网站好吗
  • 灵璧县建设局网站怎么做一个网站页面
  • 小企业网站建设百度推广有哪些推广方式
  • 建设银行网站怎么登陆不企业门户网站的建设与实现论文
  • 网站如何添加统计代码是什么seo软件工具箱
  • 黑龙江生产建设兵团各连网站已有备 网站新增网站
  • 想开一个网站开发的公司外国网站上做Task
  • 网站建设应对客户问题的话术手机免费永久建立网站
  • 怎么做网站写手重庆制作手机网站
  • 屏山移动网站建设山西城乡和建设厅网站首页
  • 大宇网络做网站怎么样三雷网站程序
  • 美团网站开发目标wordpress上传vps后安装
  • 网站建设项目方案网站界面宽
  • 11免费建网站北京本地服务信息网
  • 在免费空间上传网站为什么访问不了福永自适应网站建
  • 西安网站开发服务费用做的asp网站手机号码
  • 富通建设工程有限公司网站百度开网站需要多少钱
  • 网站备案证书怎么下载不了北京建站公司排名首推万维科技
  • 广西建设工程质量检测协会网站温州seo收费
  • 中国建设银行个人登录查询入口网站更换域名seo
  • 做壁纸壁的网站有什么大学毕业网站设计代做
  • 建设银行e路通网网站关于网站建设的一些事
  • 仿冒网站制作电商是做什么
  • 网站全站出售企业网站开发制作费入那里
  • 网站布局优化策略《电子商务网站建设 》