当前位置: 首页 > news >正文

爱站网注册人查询女生适合做seo吗

爱站网注册人查询,女生适合做seo吗,wordpress编辑器不行,有哪些做相册视频剪辑的网站最近总结修改了下预处理方法,记录下 首先download需要的依赖 pip install pyenchantpip install nltk pyenchant 是用来检测拼写正确的,如果你的文本里面可能包含非正确拼写的单词,那就忽略它,nltk用来做分词的。 python -m nlt…

最近总结修改了下预处理方法,记录下

 首先download需要的依赖

pip install pyenchant
pip install nltk

 pyenchant 是用来检测拼写正确的,如果你的文本里面可能包含非正确拼写的单词,那就忽略它,nltk用来做分词的。

python -m nltk.downloader punkt
python -m nltk.downloader stopwords
from nltk.corpus import stopwords
import nltk
import enchant
import redef is_spelled_correctly(word, language='en_US'):spell_checker = enchant.Dict(language)return spell_checker.check(word)def preprocess_text(text):text= re.sub(r'\W+', ' ',re.sub(r'[0-9]+', '', text.replace('-', '').replace('_', ' ')))words=nltk.word_tokenize(text)stop_words = set(stopwords.words('english'))words = [item for word in words for item in re.findall(r'[A-Z]+[a-z]*|[a-z]+', word)if is_spelled_correctly(item) and item.lower() not in stop_words]return ' '.join(words).lower()if __name__ == '__main__':print(preprocess_text('ServiceHandlerId caedbe-85432-xssc-dsdabffdddbea An exception of some microservice TargetDownService occurred and was test #@/*-sss '))
#service handler id exception target service occurred test

 这里最后再转小写是因为防止ServiceHandlerId这种连续的单词链接成的字符串被拼写检查剔除,只有保持驼峰情况下,才能用 re.findall(r'[A-Z]+[a-z]*|[a-z]+', word) 成功把他分成单独的单词,所以最后再处理大小写。

改进方案1: 

之后测试的时候发现数据量一大,他就很慢,后面优化了一下,速度大大提升了

from nltk.corpus import stopwords
import nltk
import enchant
import respell_checker = enchant.Dict(language)def memoize(func):cache = {}def wrapper(*args):if args not in cache:cache[args] = func(*args)return cache[args]return wrapper@memoize
def check_spelling(word):return spell_checker.check(word)def preprocess_text(text):text= re.sub(r'\W+', ' ',re.sub(r'[0-9]+', '', text.replace('-', '').replace('_', ' ')))words=nltk.word_tokenize(text)stop_words = set(stopwords.words('english'))words = [item for word in words for item in re.findall(r'[A-Z]+[a-z]*|[a-z]+', word)if check_spelling(item) and item.lower() not in stop_words]return ' '.join(words).lower()if __name__ == '__main__':print(preprocess_text('ServiceHandlerId caedbe-85432-xssc-dsdabffdddbea An exception of some microservice TargetDownService occurred and was test #@/*-sss '))
#service handler id exception target service occurred test

这里面使用了memoization 技术,它是一种将函数调用和结果存储在一个字典中的优化技术。我这里用来缓存单词的拼写检查结果。

这样之后数据量大了之后速度依然不会太慢了。

改进方案2:

使用spellchecker 这个的速度就比enchant 快的多

pip install pyspellchecker
spell = SpellChecker()
def preprocess_text(text):text= re.sub(r'\W+', ' ',re.sub(r'[0-9]+', '', text.replace('-', '').replace('_', ' ')))words=nltk.word_tokenize(text)stop_words = set(stopwords.words('english'))words = [item for word in words for item in spell.known(re.findall(r'[A-Z]+[a-z]*|[a-z]+', word)) if  item.lower() not in stop_words]return ' '.join(words).lower()

区别: 

SpellChecker是一个基于编辑距离的拼写检查库,它可以在内存中加载一个词典,并对给定的单词列表进行快速的拼写检查。enchant是一个基于C语言的拼写检查库,它可以使用不同的后端,如aspell, hunspell, ispell等,来检查单词是否存在于词典中。SpellChecker比enchant更快,尤其是当单词列表很大时。

http://www.yayakq.cn/news/980605/

相关文章:

  • 阿里云做视频网站犯法吗郑州网络推广培训
  • 网站建设服务案例聊网站推广
  • 东莞工业品网站建设公司的官方网站的作用
  • 做网站不用服务器吗绿园区建设局网站
  • 全屋定制家具设计师培训搜索seo
  • 如何判断一个网站是php还是asp网站域名费
  • 网站建设优化解析在本地搭建多个网站
  • 怎样做类似于优酷的视频网站网页翻译不了
  • auxer可以做网站嘛网站开发国际化
  • 高新网站开发多少钱如何开发一个手机网站
  • 中国沈阳网站在哪里下载八爪鱼网站建设
  • 自己做seo网站推广张家港质监站网址
  • 专门做投标书的网站宁波依众网络科技有限公司
  • intitle:网站建设庐江魅力网做网站号码
  • h5 建站网站 移动端win7系统下动网站建设
  • 现在公司做网站还需要域名吗企业网站建设该怎么描述
  • 运城哪里做网站如何用iis做网站
  • 乐视网站建设目标wordpress修改后台登陆地址
  • 中国移动官方网站官网网络营销站点推广的方法
  • 江苏专业网站建设费用类似凡科互动的网站
  • wordpress建立商业网站自己做游戏网站学什么
  • 域名查询网站信息湖北省建设安全管理协会网站
  • 商城网站设计注意什么网站加载速度
  • 企业为什么做平台网站wordpress4.9 php版本
  • 房产网站开发报价网络营销推广渠道都有哪些方面
  • 怎样做3d动画短视频网站wordpress 底部小工具
  • 酷站百分百企业网站搭建 网络活动策划
  • 建设银行广东分行网站精品网站建设公司
  • 菜鸟教程网站开发wordpress如何设置用户中心
  • 网站常用字体大小中国建设网站红黑榜名单