当前位置: 首页 > news >正文

太原定制网站开发制作关于建设网站与营销的好处

太原定制网站开发制作,关于建设网站与营销的好处,培训机构,大连网站关键字优化文章目录 数据清洗(ETL)概述案例需求和分析代码实现和结果分析 数据清洗(ETL)概述 “ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换&…

文章目录

  • 数据清洗(ETL)概述
  • 案例需求和分析
  • 代码实现和结果分析


数据清洗(ETL)概述

“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库中,但其对象并不限于数据仓库。

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。

案例需求和分析

有一个日志数据集,我们要去除日志中字段个数小于等于11的日志。
部分数据集:
在这里插入图片描述
我们期望输出的数据每行字段长度都大于11,所以需要在Map阶段对输入的数据根据规则进行过滤清洗。

代码实现和结果分析

在这里插入图片描述

package etl;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WebLogDriver {public static void main(String[] args) throws Exception {// 输入输出路径需要根据自己电脑上实际的输入输出路径设置args = new String[] { "D:/input/inputlog.txt", "D:\\hadoop\\output" };// 1 获取job信息Configuration conf = new Configuration();Job job = Job.getInstance(conf);// 2 加载jar包job.setJarByClass(WebLogDriver.class);// 3 关联mapjob.setMapperClass(WebLogMapper.class);//4设置map的输出类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);//5 设置最终输出类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);// 6取消reduce阶段,设置reducetask个数为0job.setNumReduceTasks(0);// 7 设置输入和输出路径FileInputFormat.setInputPaths(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));//8 提交boolean b = job.waitForCompletion(true);System.exit(b ? 0 : 1);}
}
package etl;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WebLogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//获取一行String line = value.toString();//ETLboolean result = parseLog(line,context);if (!result){return;}//写出context.write(value,NullWritable.get());}private boolean parseLog(String line, Context context) {String[] fields = line.split(" ");if (fields.length>11){return true;}else {return  false;}}
}

输出结果:

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

可以发现数据清洗后少了很多行,这就把不符合要求的数据去除掉了。

`

http://www.yayakq.cn/news/362216/

相关文章:

  • vue 做电商网站建站类平台排行榜
  • 编写网站郑州网站建设搭建公司
  • 宁乡网站建设自己做网站平台需要服务器
  • 网站域名注册多少钱创建一个自己的公司英语
  • 昆明网站建设价目表网络营销专业
  • 香河建设局网站谁能给我个网址
  • 做网站视频教学wordpress dedecms
  • 网站优化建议怎么写怎么在网上开店
  • 聚成网站建设做单页网站需要做什么
  • wordpress网站更换空间如何做网站的推广
  • 泰安市建设职工培训中心网站官网柳州建设网站
  • 网站个性化制作wordpress 拍卖插件
  • 网站后台素材网站主栏目
  • aspnet网站开发到部署流程天台城乡规划建设局网站
  • 93zyz资源网站生态文明建设为主题资源网站建设模块五作业
  • 简单网上书店网站建设php淮南做网站的公司
  • 企业服务中心怎么改成创作者服务中心网站从哪些方面做优化
  • 西安建设工程中心交易网站青岛市黄岛区城市建设局 网站
  • 北京中国建设部网站首页网站设计排行榜
  • 建设电商网站多少钱网上图书商城网站设计
  • 东莞模板建网站平台网站标题logo怎么做的
  • 网站建设与运营课程总结社区电商平台怎么做
  • 洛阳专业做网站公司怎么创个网站
  • 网站建设方案风险分析怎么推广淘宝店铺
  • 产品网站推广方案wordpress不能置顶
  • 如何查网站注册信息怎么做网站啊
  • 个人网站设计主题陕西建设厅继续教育网站
  • 重庆网站seo公司网络系统架构图
  • 苏州外贸网站建设优化推广做网站 斗地主
  • 北京高端网站建设图片大全建站专业定制