当前位置: 首页 > news >正文

韩国平面设计网站西安企业排名

韩国平面设计网站,西安企业排名,游戏ui培训,株洲公司dedecms1 问题 通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。 from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件) word2vec_model KeyedV…

1 问题

通过以下代码,实现加载word2vec词向量,每次加载都是几分钟,效率特别低。

from gensim.models import Word2Vec,KeyedVectors# 读取中文词向量模型(需要提前下载对应的词向量模型文件)
word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)

2 解决方案

(1)方案一
第一次加载后保存为能够快速加载的文件,第二次加载就能快读读取。

file_path = "word2vec/train_bio_word"
if os.path.exists(file_path):word2vec_model = KeyedVectors.load(file_path,mmap='r')
else:# 读取中文词向量模型(需要提前下载对应的词向量模型文件)word2vec_model = KeyedVectors.load_word2vec_format('hy-tmp/word2vec.bz2', binary=False)word2vec_model.init_sims(replace=True)word2vec_model.save(file_path)

(2)方案二
第一次加载后,只将使用到的词向量以表格的形式保存到本地,第二次读取就不需要加载全部word2vec的,只加载表格中的词向量。

file_path = "word2vec/train_vocabulary_vector.csv"
if os.path.exists(file_path):# 读取词汇-向量字典,csv转字典vocabulary_vector = dict(pd.read_csv(file_path))# 此时需要将字典中的词向量np.array型数据还原为原始类型,方便以后使用for key,value in vocabulary_vector.items():vocabulary_vector[key] = np.array(value)else:# 所有文本构建词汇表,words_cut 为分词后的list,每个元素为以空格分隔的str.vocabulary = list(set([word for item in text_data1 for word in item]))# 构建词汇-向量字典vocabulary_vector = {}for word in vocabulary:if word in word2vec_model:vocabulary_vector[word] = word2vec_model[word]# 储存词汇-向量字典,由于json文件不能很好的保存numpy词向量,故使用csv保存pd.DataFrame(vocabulary_vector).to_csv(file_path)

(3)方案三
不使用word2vec的原训练权重,使用Embedding工具库。自动下载权重文件后,高效使用。
参考:https://github.com/vzhong/embeddings
安装库

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github
from embeddings import GloveEmbedding, FastTextEmbedding, KazumaCharEmbedding, ConcatEmbeddingg = GloveEmbedding('common_crawl_840', d_emb=300, show_progress=True)
f = FastTextEmbedding()
k = KazumaCharEmbedding()
c = ConcatEmbedding([g, f, k])
for w in ['canada', 'vancouver', 'toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))
http://www.yayakq.cn/news/959304/

相关文章:

  • 优质服务的小企业网站建设网站申请服务器空间
  • 陕西省城乡建设厅的网站安丘营销型网站建设
  • 六安网站建设培训电商基础入门教程
  • 网站轮播图制作某种网站怎么找
  • 网站搜索功能设计wordpress非插件文章浏览量
  • 网站文章内链怎么做dw制作电商网页
  • 哪个网站课件做的比较好周口城乡建设局网站
  • 手机网站免费建站seo 服务
  • 怎么重启网站服务器怎么做找券网站
  • 网站如何运营godaddy 搭建网站
  • 百度网站建设技术wordpress设置备案
  • 彩票网站建设开发舆情监测平台
  • python做网站感觉好费劲企业服饰网站模板
  • 馆陶专业做网站wordpress留言标签板
  • 外贸网站建设流程全站搜索
  • 深圳网站设计网站wordpress自媒体二号
  • 网站建设销售开场百度站长工具seo
  • 做个购物网站网页快速收录
  • 北京搜狗建网站的电话app开发公司的风险及应对策略
  • 学校响应式网站模板什么东西可以做网站
  • 网站付费推广有哪些滦平县建设局网站
  • 数据网站建设成本汕头好的建站网站
  • 临沂建设局网站官网自己做一个模版网站是怎么做的
  • 网站分享平台企业形象网站建设
  • 美妆网站建设项目计划书类似酷家乐做庭院的网站
  • 网站兼容问题app的制作需要多少钱
  • 汽车门户网站源码百度资源搜索平台官网
  • 吉林电商网站建设公司电话企业画册尺寸一般多大
  • 建品牌网站公司深圳公司网站建设设计
  • 石家庄哪里可以做网站网站建设推广服务合同范本