当前位置: 首页 > news >正文

网站设计背景优化问题

网站设计背景,优化问题,网站设计项目建设内容,网站建设价格便宜查找满足指定条件的app_id查询条件: 表名、时间、节点名时间限定: 最好适当放大, 不知道什么原因有点不准eventLog的存放路径: spark.history.fs.logDirectory 1. spark-sql 先限定时间段;数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;按app_id粒度聚合, 查…
  1. 查找满足指定条件的app_id
  2. 查询条件: 表名、时间、节点名
  3. 时间限定: 最好适当放大, 不知道什么原因有点不准
  4. eventLog的存放路径: spark.history.fs.logDirectory

1. spark-sql 

  • 先限定时间段;
  • 数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;
  • 按app_id粒度聚合, 查找符合条件的数据;
-- 设定时区
set spark.sql.session.timeZone=GMT+8;-- 创建数据源视图
create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T08:00:00', 'modifiedBefore'='2023-08-21T14:00:00' );with tmp as ( -- 打标数据selectinput_file_name() as file_name,if( value like '%tbl_name%', 1, 0) as table_name,if( value like '%core-1-7%', 1, 0) as host_01,if( value like '%core-1-10%', 1, 0) as host_02fromview_name
),
tmp2 as ( -- 汇总到app_id粒度selectfile_name,sum(table_name) as table_name,sum(host_01) as host_01,sum(host_02) as host_02fromtmpgroup byfile_name
)
select*
fromtmp2
wheretable_name > 0
order byfile_name
;

2. 整文件读取

  • 先初步过滤app_id;
  • 整个文件读取成一行;
  • 按条件进行过滤;
import spark.implicits._// 寻找可能的APP_ID
val sql_create_view ="""|create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T00:00:00', 'modifiedBefore'='2023-08-21T23:00:00' )|""".stripMargin
val sql_filter_app_id ="""|select|   split( input_file_name(), 'history/')[1]  as file_name|from|    view_name|where|    value like '%trandw.dwd_log_app_open_di%'|group by|    split( input_file_name(), 'history/')[1]|""".stripMargin
spark.sql(sql_create_view)
val df_app_ids = spark.sql(sql_filter_app_id)
val app_ids = df_app_ids.collect().map(_.getString(0)).mkString(",")// 整个文件读取成一行
val rdd = spark.sparkContext.wholeTextFiles(s"hdfs://hdfs-cluster/spark-history/{${app_ids}}",20).repartition(12)
val df = rdd.toDF("file_name", "value")
df.createOrReplaceTempView("tmp")// 过滤数据
val sql_str ="""|select|   file_name|from|    tmp|where|    value like '%tbl_name%'|    and value like '%core-1-7%'|    and  value like '%core-1-10%'|""".stripMarginspark.sql(sql_str).show(1)

http://www.yayakq.cn/news/729720/

相关文章:

  • 二级域名绑定网站网站开发语言的选择
  • 广州做网站费用鸿邑网站建设
  • 做图网站被告专业优化网站排名
  • 中国知名网站排行榜广西建设厅网站在线服务
  • 企业网站建设工作总结没有设计稿做网站
  • 中英文网站怎么实现dedecms导入wordpress
  • 当前业界主流的网站建设凯里做网站的公司
  • 中学网上做试卷的网站网站推广有哪些公司可以做
  • 百度网站惩罚期建材网站建设成都
  • 呼图壁网站建设郑州网站外包公司简介
  • 惠阳区规划建设局网站上传网站流程
  • 网站建设服务合同模板简单一点的网站建设
  • 织梦网站栏目不显示应用商店下载安装电脑
  • 龙岗建设高端网站网站百度地图生成器
  • 网站排名突然下降怎么制作微网站
  • 品牌网站建站目的无限弹窗网站链接怎么做
  • 好网站建设公司业务手机网站网页开发教程
  • 做网店的网站电脑ps软件
  • 什么网站能让小孩做算术题开个游戏服务器要多少钱
  • 巴中市平昌县建设局网站大连做网站哪家服务好
  • 网站开发要哪些工信部网站备案注销
  • 鹤峰网站建设最有效的恶意点击
  • 网站建设与开发 教材网站免费制作教程
  • 重庆江北营销型网站建设公司推荐淘宝优惠券网站开发
  • 南阳南阳新区网站建设网站 ipc 备案
  • 电子商务网站建设分析企业质量文化建设
  • 网站推广目标关键词怎么选专门做调查问卷的网站
  • 网站栏目标题wordpress拼音tag插件
  • 南昌网站建设公司排行榜前十招聘网站开发需求分析
  • 一那个网站可以做一建题十大全app软件下载