当前位置: 首页 > news >正文

兰州网站在哪备案.net做网站用什么的多

兰州网站在哪备案,.net做网站用什么的多,wordpress 主题 新闻,.net 企业网站源码下载我们有时候需要爬取结果生成为自定义的词云图 生成自定义的词云图通常需要以下步骤: 1. 爬取数据:使用爬虫工具或库,如requests、BeautifulSoup等,可以爬取网页、论坛、社交媒体等平台上的文本数据。 2. 数据预处理&#xff1a…

我们有时候需要爬取结果生成为自定义的词云图

生成自定义的词云图通常需要以下步骤:

1. 爬取数据:使用爬虫工具或库,如requests、BeautifulSoup等,可以爬取网页、论坛、社交媒体等平台上的文本数据。

2. 数据预处理:对爬取到的文本数据进行清洗和处理,去除无用字符、标点符号、停用词等,并进行分词操作。

3. 构建词频字典:统计每个词的出现频率,可以使用字典或Counter类记录每个词的频率。

4. 生成词云图:使用词云生成工具,如wordcloud库,根据词频字典生成词云图。可以根据需求设置词云的样式、颜色、形状等。

需要根据具体的需求对代码进行修改和完善,如数据预处理、词频统计等。另外,还可以根据需求自定义词云的样式、颜色、字体等。

需要导入的库,先pip安装一下

# 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt # 图像展示库
from pylab import mpl # 用于处理中文乱码

读取保存到csv的爬取结果,根据

# 读取文件
fn = open('all_data.csv', encoding='utf-8-sig') # 打开文件并编码
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all=False) # 精确模式分词
object_list = []
remove_words = [u'的', u',', u'和', u'是', u'随着', u'对于', u'对', u'等', u'能', u'都', u'。', u' ', u'、', u'中', u'在', u'了',u'通常', u'如果', u'我们', u'需要', u'把', u'但', u'?', u'!', u'...', u'有', u'做', u'大', u'一个', u'一些', u':',u'》', u'!', u'】', u'[', u'【', u'+', u'我', u'你', u'"', u'。。。', u'《', u'1', u'/', u'?', u'吗', u'“',u'这', u'小', u'.', u'#', u'|', u'(', u')', u'(', u')', u'…', u'”', u',', u'不', u'上'] # 自定义去除词库for word in seg_list_exact: # 循环读出每个分词if word not in remove_words: # 如果不在去除词库中object_list.append(word) # 分词追加到列表# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(10) # 获取前10最高频的词
print(word_counts_top10) # 输出检查# 词频展示
mask = np.array(Image.open('tree.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(font_path='D:/Course/bilibiliHot/JiZiHeFengChiSong.ttf', # 设置字体格式mask=mask, # 设置背景图max_words=200, # 最多显示词数max_font_size=100, # 字体最大值background_color='white'# 设置背景颜色,默认为黑色black
)fig = plt.figure(figsize=(10, 8)) # 设置显示窗口大小
wc.generate_from_frequencies(word_counts) # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
mpl.rcParams['font.sans-serif'] = ['SimHei']
plt.suptitle('词频分析') #这里设置中文可能会乱码,需要导包
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
wc.to_file('result.jpg') # 无白边保存图片
# fig.savefig('result01.jpg') # 有白边保存

http://www.yayakq.cn/news/584267/

相关文章:

  • 网站显示搜索框学生兼职网站开发
  • 建设局考试通知文件网站有什么网站做热图
  • 南京seo网络推广广州seo招聘网
  • 黑龙江住房城乡建设厅网站怎么做二维码微信扫后直到网站
  • 深圳 手机网站做网站要是要求吗
  • 长沙网站公司哪家好四川煤矿基本建设工程公司网站
  • 简单美食网站模板wordpress shiftcv
  • 网站设计需求分析软件设计学什么
  • 支付网站建设费账务处理网站流程设计
  • 公司网站建设费会计分录多渠道营销平台与crm
  • 网站推广方法包括哪些活动 wordpress
  • 百度收录网站需要多久松原做网站的公司
  • 网站建设 猴王网络一小时做网站
  • 网站导航栏字体怎么直接更新wordpress
  • 美轮美奂的网站建设在北京注册公司要哪些条件
  • wordpress里网站名称在哪里修改制作h5用什么软件比较好
  • 什么网站可以做卷子成都六度网站建设
  • 跨境电商自建站是什么意思程序员是不是都是做网站的
  • 如何做一个论坛网站运营推广的方式和渠道有哪些
  • 兰州seo网站排名.net网站开发是什么对象开发
  • 装修网站运营网页制作赚钱吗
  • 淘宝找做网站网站建设首选建站系统
  • 霍山有没有做建网站的线上编程课程
  • 蜘蛛爬网站怎么看网站是否备案成功
  • 做网站上面的图标wordpress图片怎么控制高度
  • 广州天河建网站的公司一个公司可以做几个百度推广
  • 主营网站建设品牌wordpress 图床域名
  • 高密做网站哪家强价位扬州百姓网免费发布信息网
  • eclipse网站开发流程一个人开发游戏难吗
  • wordpress 列表株洲seo优化官网