整个的复习思路可以是先从github了解jieba,知道jieba分词,词性标注和关键字提取的使用
再通过 https://my.oschina.net/u/3800567/blog/2253644 这个系列文章熟悉jieba的源码
其中,关键字提取的算法,TF-IDF,Text-Rank算法的讲解,可以从以下文章复习
1). text-rank基于的pagerank:
这个通俗易懂 https://www.letiantian.me/2014-06-10-pagerank/
这个从矩阵层面讲解 https://zhuanlan.zhihu.com/p/32276862
2).tf-idf:一个单词在这篇文章中出现的次数很多的时候,这个词语更加重要;但如果它在所有文章中出现的次数都很多,那么它就显得不那么重要
https://zhuanlan.zhihu.com/p/60839697
3). java实现TDIDF,TextRank
其他相关知识
Hanlp : https://github.com/hankcs/HanLP#14-%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96
Hanlp的word2vec https://github.com/hankcs/HanLP/wiki/word2vec
4.文本聚类,然后取簇中心的词做主语
https://www.jianshu.com/p/695eb0fd3745
7.N-gram模型(主要看第二部分,句子分词)