Bag-of-words model:就是将句子打散成单词的集合。
N-gram model:同上,只是按照 n 进行顺序组合。
- 留言板侮辱与非侮辱的分类举例
- 数据获取:Twitter API、tweepy
- 数据清洗:NLTK whitespaceTokenizer、转成小写字母、删除无用部分
- 无监督学习:PCA(主成分分析)、LSI(隐性语义索引)、LDA(隐含迪克特雷分析)
- Word Embedding(词向量):word2vec
- 词干提取算法:Stemming、词形还原、否定处理
Bag-of-words model:就是将句子打散成单词的集合。
N-gram model:同上,只是按照 n 进行顺序组合。