当前位置: 首页 > news >正文

去哪找想做网站的客户衡水网站制作设计

去哪找想做网站的客户,衡水网站制作设计,重庆网红打卡地,嘉定集团网站建设目录 1.中文分词 2.词典分词 (1)词的定义 (2)词典性质——齐夫定律 (3)词典 (4)加载词典 (5)hanlp词典路径 1.中文分词 中文分词:指的是将一…

目录

1.中文分词

2.词典分词

(1)词的定义

(2)词典性质——齐夫定律

 (3)词典

(4)加载词典

 (5)hanlp词典路径


1.中文分词

  • 中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。
  • 中文分词算法大致分为基于词典规则基于机器学习这两大派。
  • 词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词典的规则即可。给定一部词典,词典分词就是一个确定的查词和输出的规则系统。

2.词典分词

(1)词的定义

        在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。根据此定义,词典之外的字符串就不是词了。这个推论或许不符合读者的期望,但这就是词典分词故有的弱点。事实上,语言中的词汇数量是无穷的,无法用任何词典完整收录。

(2)词典性质——齐夫定律

        齐夫定律:一个单词的词频与它的词频排名成反比。就是说,虽然存在很多生词,但生词的词频较小,趋近于0,平时很难碰到。至少在常见的单词的切分上,可以放心地试一试词典分词。

 (3)词典

互联网上有许多公开的中文词库,比如

搜狗实验室发布的互联网词库(SogouW,其中有15万个词条):https://www.sogou.com/labs/resource/w.php

清华大学开放中文词库(THUOCL):http://thunlp.org

何晗发布的千万级巨型汉语词库(千万级词条):http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html

(4)加载词典

from pyhanlp import *def load_dictionary():"""加载HanLP中的mini词库:return: 一个set形式的词库"""IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')  # ①path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')  # ②dic = IOUtil.loadDictionary([path])  # ③return set(dic.keySet())if __name__ == '__main__':dic = load_dictionary()print(len(dic))print(list(dic)[0])

JClass 函数是连通Java和Python 的桥梁,用来根据Java路径名得到一个Python类。
①处利用JClass取得了HanLP中的IOUti1工具类,②处则取得了HanLP的配置项Config中的词典路径。我们写在配置文件中的条目最终会被读入这个结构中,比如配置文件写作CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt,该配置将被读人HanLP.Config.CoreDictionaryPath。这里我们想要加载mini 词典,因为其体积更小,加载起来更快。于是②处将这个路径替换为mini词典的路径。在③处我们像对待普通Python 工具类一样调用了IOUti1的静态方法 loadDictionary。该方法支持将多个文件读入同一个词典中,因此需要传入一个1ist。它返回一个Java Map对象,前面提到过,我们不关心Map中的值,于是我们只取它的键keySet,并将其转换为一个Python原生的set 对象。这样接下来的代码就不必考虑与Java的交互,Python用户从此回到了自己熟悉的环境中。 

 (5)hanlp词典路径

路径为:HanLP/data/dictionaray/CoreNatureDictionaray.mini.txt

 

 

http://www.yayakq.cn/news/452560/

相关文章:

  • 广州开发区建设局网站黄埔网站开发课程软件
  • 网站空间和云主机网页设计尺寸的分辨率
  • PC网站开发的意义小制作灯笼
  • 电脑打不开建设银行网站做高档衣服的网站
  • 做网站需要哪些技术人员wordpress百度推送
  • 南京企业网站设计公司500元装修房子的app软件哪个好
  • 厦门模板网站公司论坛网站建设规划书
  • 网站设计会存在什么问题做网站宿迁
  • 虹口专业网站建设公司企业网络采购平台
  • 如何查公司网站开发时间网站建设有哪些工作室
  • 高校网站首页设计如何利用个人nas做网站
  • 课程网站建设发展趋势7k7k电脑版网页游戏
  • 苏州微网站建设公司哪家好网页截图快捷键是哪个键
  • 怎样在国外网站上做外贸广告小程序源码如何部署到服务器
  • 我想做自己网站怎么做微信商城网站怎么做的
  • 36 氪 网站如何优化微信制作小程序的软件
  • 建设网站的程序软件开发工程师考核指标
  • 怎样建立自己购物网站江苏广兴建设集团网站
  • 做书的封面的网站素材wordpress好看的页面布局
  • 昆明做网站词排名优化网站首页收录
  • 新县城乡规划建设局网站大型门户网站 要求
  • 上海做宴会的网站网站注册页面代码
  • 长沙做网站公河源做网站优化
  • 做网站公司天津哪个网站做视频有收益
  • 建设化工网站的目的金湖网站建设公司
  • 苏州企业网站关键词优化wordpress媒体库管理
  • 最新网站制作弄个微信小程序多少钱
  • 分析可口可乐网站建设的目的备案注销网站还有吗
  • 网站建设 呢咕云万户网络学校网站建设
  • 新手做哪类网站网络架构1788