词典分词:
词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词典的规则。
什么是词:
语言学:具有独立意义的最小单位。
太模糊了,”最小单位”到底什么是最小呢?
而基于词典的中文分词,词的定义为:在词典中的字符串才是词,词典之外的不是词。
齐夫定律:一个“不容易”见到的词,出现的次数是较少的。
所以常见单词的切分,我们可以放心的采用词典分词。
词典分词:
词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词典的规则。
什么是词:
语言学:具有独立意义的最小单位。
太模糊了,”最小单位”到底什么是最小呢?
而基于词典的中文分词,词的定义为:在词典中的字符串才是词,词典之外的不是词。
齐夫定律:一个“不容易”见到的词,出现的次数是较少的。
所以常见单词的切分,我们可以放心的采用词典分词。