当前位置: 首页 > news >正文

网站首页建设建议天津网站免费制作

网站首页建设建议,天津网站免费制作,互联网保险和传统保险的区别,wordpress前端框架标题 1 统计要收集的关键词,制作一个文件夹2 爬取每一页的内容3 爬取标题和内容4 如果内容可以被查看,爬取评论内容5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容6 总结 1 统计要收集的关键词,制作一个文…

标题

  • 1 统计要收集的关键词,制作一个文件夹
  • 2 爬取每一页的内容
  • 3 爬取标题和内容
  • 4 如果内容可以被查看,爬取评论内容
  • 5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容
  • 6 总结

1 统计要收集的关键词,制作一个文件夹

例如,我要收集旅游相关的,就收集:
旅游、旅行、旅游攻略,这些词,做成一个txt文件。

用一个浏览器登录上小红书账号,然后记录写cookies,例如:
在这里插入图片描述

2 爬取每一页的内容

主要使用request,js模块,将爬取的内容保存为res,里面包含一页20条数据。

info = re.sub(r'"page":".*?"', f'"page":"{page}"', info)ret = js.call('get_xs', api, info, cookies["a1"])headers['x-s'], headers['x-t'] = ret['X-s'], str(ret['X-t'])response = requests.post(search_url, headers=headers, cookies=cookies, data=info.encode('utf-8'))res = response.json()

3 爬取标题和内容

从每一个note里面解析出标题,内容等信息。

result = {}result["title"] = data['note_card']['title']result["desc"] = data['note_card']['desc'].replace("\n", "").replace("\t", "")tags_temp = data['note_card']['tag_list']tags = []for tag in tags_temp:try:tags.append(tag['name'])except:passresult["tags"] = tagsresult["time"] = timestamp_to_str(data['note_card']['time'])

4 如果内容可以被查看,爬取评论内容

每个帖子里面的评论的单独的url,需要根据id号进行拼接,所以根据第3节获取的user-id,进行拼接,然后再用get进行访问,最后获得每条评论,注意有些帖子是不能被查看的,所以需要进行判断。

note_id = url.split('/')[-1]comments_url = "https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&image_scenes=FD_WM_WEBP,CRD_WM_WEBP".format(note_id)response = requests.get(comments_url, headers=headers, cookies=cookies)res = response.json()comments = []for line in res["data"]["comments"]:comment_str = line["content"]comments.append(comment_str)

5 将结果进行汇总,并且每个帖子保存为一个json文件,具体内容

包含:标题,具体内容,标题,创建时间,评论内容。每个关键词一个文件夹。
在这里插入图片描述

6 总结

详细代码私聊,注意本内容没有爬取图片,如果需要可以添加。

http://www.yayakq.cn/news/497184/

相关文章:

  • 南宁网站建设公司企业门户网站建设方案
  • 太原网站建设搭建小城镇建设网站参考文献
  • ps 怎么做网站隆尧建设局网站
  • 梁山网站建设襄阳seo招聘
  • 网站推广团队怎么导入视频到wordpress
  • 为什么多个网站域名有同个网站备案ui设计app界面设计流程
  • wordpress单位内网做网站网站链接安全检测
  • 企业如何加强互联网网站建设浙江省建设信息网站
  • c2c平台排名企业seo年度
  • 网站备案密码丢了怎么办动漫制作专业毕业答辩是什么内容
  • 国贸汽车网站建设收费网站方案
  • 论坛网站开发语言宿迁华夏建设集团网站
  • 南阳网站seo公司软件
  • 什么是网站风格公司大气聚财的名字
  • htm5移动网站开发做网站应该画什么图
  • 网站设计与制作简单吗如何看配色网站
  • icp备案网站要先建好吗软件开发流程详解
  • 北京商城网站建设报价单贵港住房城乡建设厅网站
  • 番禺建网站价格se 网站优化
  • 3000ok新开传奇网站公益服怎么用自己电脑做网站服务器吗
  • 上海行业门户网站建设工具农村创业
  • 楚雄企业网站建设公司企业手机网站建设机构
  • 不付费免费网站网站建设方案书例子
  • 为什么做旅游网站网站建设的预算
  • 滨州正规网站建设哪家好wordpress新用户无法注册
  • 网站开发中心工控主机做网站服务器
  • 国外做农产品有名的网站济南网站seo技术
  • 如何用front怕个做网站网站开发运行及维护
  • 上海建设交通网站wordpress去除评论
  • 做网站的过程最好的微网站建设价格