当前位置: 首页 > news >正文

织梦网站根目录标签浏览器网页打不开怎么解决

织梦网站根目录标签,浏览器网页打不开怎么解决,厦门网站开发建设,重庆建设工程招标造价信息网站用于机器学习的文本有一种最简单的方法,也是最有效且最常用的方法,就是使用词袋表示。使用这种表示方法时,我们舍弃了输入文本中的大部分结构,比如章节、段落、句子和格式,只计算语料库中,只计算语料库中每…

用于机器学习的文本有一种最简单的方法,也是最有效且最常用的方法,就是使用词袋表示。使用这种表示方法时,我们舍弃了输入文本中的大部分结构,比如章节、段落、句子和格式,只计算语料库中,只计算语料库中每个单词在每个文本中出现的频次。舍弃结构并仅计算单词出现的次数,这会让脑海中出现将文本表示为“袋”的画面。

对于文档语料库,计算词袋表示包括以下三个步骤:

1、分词。将每个文档划分为出现在其中的单词(称为词例 token),比如按空格和标点划分。

2、构建词表。收集一个词表,里面包含出现在任意文档中的所有词,并对它们进行编号。

3、编码。对于每个文档,计算词表中每个单词在该文档中出现的频次。

在步骤1和步骤2涉及一些细微之处。我们来看一下如何利用scikit-learn来应用词袋处理过程。词袋的输出是包含每个文档中单词计数的一个向量。对于词表中的每个单词,我们都有它在每个文档中出现的次数。也就是说,整个数据集中的每个唯一单词都对应于这中数值表示的一个特征。要注意,原始字符串中的单词顺序与词袋特征表示完全无关。

将词袋应用于玩具数据集:

词袋表示是在CountVectorizer中实现的,它是一个变换器(transformer)。我们首先将它应用于包含两个样本的玩具数据集,来看一下它的工作原理:

bards_words=['the fool doth think he is wise','but then wise man knows himself to be a fool']

我们导入CountVectorizer并将其实例化,然后对玩具数据进行拟合,如下所示:

bards_words=['the fool doth think he is wise','but then wise man knows himself to be a fool']
vect=CountVectorizer()
vect.fit(bards_words)

拟合CountVectorizer包括训练数据的分词与词表的构建,我们可以通过vocabulary_属性来访问词表:

print('词表大小:{}'.format(len(vect.vocabulary_)))
print('词表:{}'.format(vect.vocabulary_))

词表一个包含14个单词,从“be”到“wise”。

我们可以调用transform方法来创建训练数据的词袋表示:

bag_of_words=vect.transform(bards_words)
print('词袋表示:{}'.format(repr(bag_of_words)))

词袋表示保存在一个SciPy系数矩阵中,这种数据格式只保存非零元素。这个矩阵的形状为2*13,每行对应于两个数据点之一,每个特征对应于词表中的一个单词。这里使用稀疏矩阵,是因为大多数文档斗志包含次表中的一小部分单词,也就是说特征数组的大部分元素都为0,因为保存0的代价很高,也浪费内存。要想查看稀疏矩阵的实际内容,可以使用toarray方法将其转换为“密集的”NumPy数组(保存所有0元素):

但是这里之所以可行,是因为我们使用的是仅包含13个单词的小型数据集。对于任何真实数据集来说,这将会导致内存报错。

print('矩阵实际数组内容:{}'.format(bag_of_words.toarray()))

我们可以看到,每个单词的计数都是0或1.bards_words中的两个字符串都没有包含相同的单词。

我们来看一下如何阅读这些特征向量:第一个字符串被视为第一行,对于词表中第一个单词“be”,出现0次,第二个词0次,第三个次1次,以此类推。

访问词表的另一种方法是使用向量器的get_funture_name方法,它将返回一个列表,每个元素对应一个特征:

feature_name=vect.get_feature_names_out()
print('特征数量:{}'.format(len(feature_name)))
print('前20个特征:{}'.format(feature_name[:20]))

http://www.yayakq.cn/news/698657/

相关文章:

  • 平罗门户网站建设建网站公司汽车六万公里是否累变速箱油
  • .net开发的网站 能做成app吗数学很差能学计算机吗
  • 建设银行网站怎么下如何制作app平台
  • 永城网站设计公司网站制作开发教程
  • 网站建设做网站好做吗全国icp网站备案审核时间
  • wordpress说明文档百度网站建设优化
  • 小孩子和大人做的网站游戏官方网站开发设计报告
  • 网站建设不完整什么意思深圳企业公司网站设计
  • app导航网站源码网站网页建设与制作怎么做账
  • 网站开发与设计开题报告业务型网站做seo
  • 莲都网站建设logo库官网
  • 织梦做网站好不好免费网络推广怎么做
  • 网站做百度推广多少钱泉州网红餐厅
  • 学做网站用什么软件遵义网帮你分类信息网
  • 屏蔽ip地址访问网站短视频网站php源码免费
  • 房产公司网站模板免费的短视频推荐app
  • 一个门户网站需要多大的空间网站建设价格比较
  • 泉州大型网站建设p2p理财网站开发框架
  • 如何查看网站的外链wordpress上传图片路径
  • 旅游网站建设方案简介文交所网站开发
  • react做的网站有哪些沈阳互联网公司
  • 大连网站建设介绍自媒体营销代理
  • 岱山县网站建设网站的流程图
  • 深圳网站制作07551网站彩票做号
  • 免费做问卷的网站网站运营的含义是什么
  • 做网站备案地点需要找做网站的
  • 中山小程序开发公司网站优化内链怎么做
  • 手机做网站的大数据分析培训机构
  • 电商网站开发缓存湖北疾控发布最新通告
  • 免费注册网站平台全屋定制十大公认品牌有哪些