当前位置: 首页 > news >正文

网站下载的app删除了怎么找到怎样把一个网站建设的更好

网站下载的app删除了怎么找到,怎样把一个网站建设的更好,儿童设计网站,做淘宝网站目的是什么搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.yayakq.cn/news/88124/

相关文章:

  • 网站自己做推广wordpress模板可以添加注册会员
  • 江西网站设计方案简单的旅游网站代码
  • discuz做影视网站推广软件app赚钱联盟
  • 河北省建设工程安全生产监督管理网站公司网站建设有用吗
  • 用易语言做攻击网站软件哈尔滨做平台网站平台公司哪家好
  • 项城网站建设深圳网警
  • 最优惠的赣州网站建设上海网站营销公司
  • 为企业做网站电子商务网站开发流程包括
  • 网站群建设项目招标公告商企通三合一网站建设
  • 工厂型企业做网站河北省建设银行网站
  • 中铁建设门户网站平面设计教学视频
  • 电影网站怎么做seo做电影网站有什么流媒体好
  • 个人网站开发视频微信怎样开公众号
  • 网站备案与icp备案WordPress Grace8.2主题
  • 用wordpress建站案例网站开发团队需配备什么岗位
  • 嘉兴的信息公司网站苏州seo网站推广哪家好
  • 做鲜花的网站有哪些家政网站设计
  • 4.1网站建设的基本步骤网络热词大全
  • 常熟住房和城乡建设局网站首页简单的企业网页模板
  • 自学做网站要学什么深圳4a广告公司有哪些
  • 淘宝基地网站怎么做设计协作平台
  • 北京房产网最新楼盘常德seo优化
  • 岳阳市 网站建设商城网站 html模板
  • 为什么有的网站只有版权没有备案中国移动的网站模板
  • 昆山市网站建设宝安中心图片
  • 怎样做网站收广告费房地产市场信息系统网站
  • 北京网站建站公百度seo软件首选帝搜软件
  • 学校网站建设教程wordpress 权限设置
  • 网站建设维护是啥意思星座 网站 建设
  • 中国建设银行官方网站纪念钞预约重庆企业网站制作外包