仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333.
言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip install bosonnlp。下面是一些简单应用,其实就是改一点官方的例子Orz...密钥的话,我的不给看(因为有请求次数限制的。。。),自己在这里注册一下就有啦。
# -*- coding: utf-8 -*- # 情感分析 from __future__ import print_function, unicode_literals from bosonnlp import BosonNLP nlp = BosonNLP('这里应该是你的密钥') print(nlp.sentiment("楼主真是帅啊")) print(nlp.sentiment("楼主真是太弱了"))
输出如下:
两个列表对应着两句话,列表里面的两个数字,分别为正面指数,负面指数。额。。那个结果,,还算是挺合理的吧。
也可以换个姿势,再请求一遍这两段文本:
import json import requests SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis' # 注意:在测试时请更换为您的API Token headers = {'X-Token': '这里应该是你的密钥'} s = ['楼主真是帅啊', '楼主真是太弱了'] data = json.dumps(s) resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8')) print(resp.text)
输出结果也是一样的:
还有很多有趣的用法,这个就留在以后有空的时候再深入研究啦。
这个,其实我还是想分析一下那些帖子的文本信息,用API做当然可以,不过那样虽然严谨,但是,没有直接利用boson提供的页面解析文本方便些。
于是,我就开始了,无耻的粘贴和复制。。。效果如下:
这个关键词提取还是可以的2333。。。其中精髓,自己联想吧!不过,也许是自己太与世隔绝orz。。。不明白dogo是什么,查了下,不解释啦,是它!
至此,和超级课程表的交集就算完结了。