• jieba(结巴)—— Python 中文分词


    学术界著名的分词器:

    • 中科院的 ICTCLAS,代码并不十分好读
    • 哈工大的 ltp,
    • 东北大学的 NIU Parser,

    另外,中文 NLP 和英文 NLP 不太一致的地方还在于,中文首先需要分词,针对中文的分词问题,有两种基本的解决思路:

    • 启发式(Heuristic):查字典
    • 机器学习/统计方法:HMM、CRF

    jieba 分词是python写成的一个算是工业界的分词开源库,其 github 地址为:https://github.com/fxsjy/jieba

    jieba 分词虽然效果上不如 ICTCLAS 和 ltp,但是胜在 python 编写,代码清晰,扩展性好,对 jieba 有改进的想法可以很容易的自己写代码进行魔改。

    jieba分词学习笔记(一)

    0. install

    有两种方式:

    1. jieba 的特色

    • 支持三种分词模式:
      • 精确模式,试图将句子最精确地切开,适合文本分析;
      • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
      • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
    • 支持繁体分词
    • 支持自定义词典
    • MIT 授权协议

    2.

  • 相关阅读:
    1206 冲刺三
    1130持续更新
    1128项目跟进
    冲刺一1123(总结)
    冲刺一
    1117 新冲刺
    0621 第三次冲刺及课程设计
    0621回顾和总结
    实验四主存空间的分配和回收
    学习进度条
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9423103.html
Copyright © 2020-2023  润新知