当前位置: 首页 > news >正文

wordpress 站内信蓝色通用营销型企业网站模板

wordpress 站内信,蓝色通用营销型企业网站模板,金融行业建设网站,关键词优化公司排名CountVectorizer方法介绍 CountVectorizer 是 scikit-learn 库中的一个工具,它主要用于将文本数据转换为词频矩阵,而不是传统意义上的词向量转换,但可以作为词向量转换的一种基础形式。用于将文本数据转换为词频矩阵,它是文本特征…

CountVectorizer方法介绍

  • CountVectorizer 是 scikit-learn 库中的一个工具,它主要用于将文本数据转换为词频矩阵,而不是传统意义上的词向量转换,但可以作为词向量转换的一种基础形式。
  • 用于将文本数据转换为词频矩阵,它是文本特征提取的重要方法之一。

用法

  • 分词:将输入的文本分割成单词或 n-gram 序列。
  • 构建词汇表:统计文本中出现的所有唯一的词,并为每个词分配一个唯一的索引。
  • 生成词频矩阵:对于每一个输入的文本,根据词汇表统计每个词出现的次数,生成一个稀疏矩阵,矩阵的行表示文档,列表示词汇表中的词,元素表示该词在相应文档中的出现频率。

CountVectorizer

在这里插入图片描述

主要参数

  • input=‘content’:输入数据的类型,可以是 ‘content’(字符串)、‘filename’ 或 ‘file’。
  • encoding=‘utf-8’:文本的编码方式。
  • decode_error=‘strict’:解码错误时的处理方式,如 ‘strict’、‘ignore’、‘replace’ 等。
  • strip_accents=None:去除重音字符,可设置为 ‘ascii’ 或 unicode。
  • lowercase=True:将所有字符转换为小写。
  • preprocessor=None:预处理器,用于在分词前对文本进行处理。
  • tokenizer=None:自定义分词器,默认为 None,使用 CountVectorizer 自带的分词器。
  • stop_words=None:停用词列表,可以是 ‘english’ 或自定义的停用词列表。
  • token_pattern=‘(?u)\b\w\w+\b’:用于分词的正则表达式模式。
  • ngram_range=(1, 1):提取 n 元语法的范围,默认为一元语法。
  • analyzer=‘word’:分析器,可以是 ‘word’(单词级)或 ‘char’(字符级)。
  • max_df=1.0:词汇表中一个单词在文档中出现的最大频率,可设置为浮点数(比例)或整数(绝对次数)。
  • min_df=1:词汇表中一个单词在文档中出现的最小频率,可设置为浮点数(比例)或整数(绝对次数)。
  • max_features=None:词汇表的最大大小,限制词汇表中的单词数量。

CountVectorizer例子

from sklearn.feature_extraction.text import CountVectorizertexts = ["dog cat fish","dog cat cat","fish bird","bird"]
cont = []
# 实例化一个模型
cv = CountVectorizer(ngram_range=(1,3)) 
# 这里实例化了一个 CountVectorizer 对象 cv,ngram_range=(1,3) 表示要考虑的 n-gram 的范围是从 1 个词到 3 个词的组合。
# 例如,对于 "dog cat fish",会考虑 "dog"、"cat"、"fish"、"dog cat"、"cat fish" 和 "dog cat fish" 等。# 训练此模型
cv_fit = cv.fit_transform(texts) 
# 使用 fit_transform 方法对输入的文本列表 texts 进行训练和转换。
# 它会先对文本进行分词处理,然后统计每个词(或 n-gram)在每个文本中出现的频率。print(cv.get_feature_names_out())
# 调用 get_feature_names_out 方法,将返回一个包含所有不同的词(或 n-gram)的数组。
# 这些词是在对输入的文本进行处理后得到的词汇表,会根据输入文本中出现的不同词汇以及 n-gram 组合形成。print(cv_fit)
# 打印 cv_fit,它是一个稀疏矩阵对象,存储了词频信息。由于文本数据通常是稀疏的(大部分元素为 0),
# 所以使用稀疏矩阵来存储可以节省空间和提高计算效率。# 打印出每个语句的词向量
print(cv_fit.toarray())
# 调用 toarray 方法将稀疏矩阵 cv_fit 转换为密集数组。
# 这样可以更直观地看到每个语句中各个词汇或 n-gram 的出现次数,行代表输入的不同文本,列代表词汇表中的词汇或 n-gram。# 打印出所有数据求和结果
print(cv_fit.toarray().sum(axis=0))
# 对 cv_fit.toarray() 得到的数组按列求和,即计算每个词汇或 n-gram 在所有文本中出现的总次数。
# axis=0 表示按列进行求和操作。

结果:
在这里插入图片描述

http://www.yayakq.cn/news/440232/

相关文章:

  • 做网站的书籍推荐如何发布视频赚钱
  • 网站游戏怎么制作牡丹江地区做网站的公司
  • 公司网站优点自己做的网站怎么实现结算功能
  • 医院网站建设价值和意义石家庄seo推广
  • 用asp做的网站开发网站的步骤
  • 感觉做的比较好的健身网站品牌战略
  • 手机软件下载网站源码wordpress 按时间倒序
  • 网站项目设计具体方案广告营销有哪些
  • 搜索引擎是网站吗宣传设计网站
  • 特效视频网站免费注册深圳公司
  • discuz应用中心模板seo入门培训教程
  • 东莞寮步网站建设网络公司wordpress首行缩进2字符怎么设置
  • 怎么做网站的后台维护如何使用服务器ip做网站
  • 网站建设网络推广首选公司跨境外贸是做什么的
  • 怎么建立自己企业网站最近新闻有哪些
  • ireal 网站建设wordpress引入php
  • 泰州网站开发公司旅游网站html
  • xp系统中做网站服务器吗高端的网站名称
  • 贴心的网站优化公司joomla网站建设
  • 做国外网站需要多少钱巢湖做网站
  • 设计网站怎么做的17网店货源网
  • 做网站要注册公司么南京市工程造价信息网
  • 网站建设在未来的发展趋势阿里巴巴国际站做2个网站有用吗
  • 重庆网站排名优化公司网络营销导向的网站建设的基本原则
  • 东陵网站制作外贸网站建设推广费用
  • 建站网址导航hao123c2c十大平台
  • notepad做网站技巧网络工程的公司有哪些
  • 企业网站的设计与开发做一个网站建设
  • 住房城乡建设部网站诚信网站建设方案选公司
  • 无锡网站制作高端org后缀做网站行