runxinzhi.com
首页
百度搜索
【笔记】提高中文分词准确性和效率的方法
最近在学习中文分词方面的技术。读到
KTDictSeg 1.2
组件的代码深受启发,作此笔记。
在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
相关阅读:
angularjs select
DataInputStream和DataOutputStream
Linux gcc编译器
Linux 网络配置
Linux 实用工具vi
Linux 文件系统
Linux Linux系统管理命令
Linux Linux常用命令二
Linux Linux常用命令一
数据结构 排序(归并排序)
原文地址:https://www.cnblogs.com/format/p/1188857.html
最新文章
初识echarts
response与文件下载
二分算法的应用——最大化平均值 POJ 2976 Dropping tests
二分算法的应用——最大化最小值 POJ2456 Aggressive cows
考研计划
机器学习算法整理(六)— 贝叶斯算法_实现垃圾邮件过滤
用Python来进行词频统计
机器学习算法整理(六)— 贝叶斯算法_实现拼写检查器
第八届蓝桥杯c/c++省赛题目整理
在服务器搭建Jupyter notebook
热门文章
数学建模 数据包络分析(DEA) Lingo实现
NYOJ 数独 DFS
手动安装jar到maven
jedis 链接池使用(转)
JedisPoolConfig解说
java redis基本操作
redis基本命令
derective示例
理解指令的restrict属性(转)
delete 删除对象属性
Copyright © 2020-2023
润新知