• 爬虫再探实战(五)———爬取APP数据——超级课程表【四】——情感分析


        仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333.

    言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip install bosonnlp。下面是一些简单应用,其实就是改一点官方的例子Orz...密钥的话,我的不给看(因为有请求次数限制的。。。),自己在这里注册一下就有啦。

    # -*- coding: utf-8 -*-
    
    # 情感分析
    from __future__ import print_function, unicode_literals
    from bosonnlp import BosonNLP
    
    nlp = BosonNLP('这里应该是你的密钥')
    print(nlp.sentiment("楼主真是帅啊"))
    print(nlp.sentiment("楼主真是太弱了"))  

         输出如下:

        两个列表对应着两句话,列表里面的两个数字,分别为正面指数,负面指数。额。。那个结果,,还算是挺合理的吧。

        也可以换个姿势,再请求一遍这两段文本:

    import json
    import requests
    
    SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis'
    # 注意:在测试时请更换为您的API Token
    headers = {'X-Token': '这里应该是你的密钥'}
    
    s = ['楼主真是帅啊', '楼主真是太弱了']
    data = json.dumps(s)
    resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8'))
    
    print(resp.text)
    

      输出结果也是一样的:

        还有很多有趣的用法,这个就留在以后有空的时候再深入研究啦。

        这个,其实我还是想分析一下那些帖子的文本信息,用API做当然可以,不过那样虽然严谨,但是,没有直接利用boson提供的页面解析文本方便些。

    于是,我就开始了,无耻的粘贴和复制。。。效果如下:

     

        这个关键词提取还是可以的2333。。。其中精髓,自己联想吧!不过,也许是自己太与世隔绝orz。。。不明白dogo是什么,查了下,不解释啦,是它!

        

        至此,和超级课程表的交集就算完结了。

  • 相关阅读:
    RTB交接
    awk命令详解
    Linux下的压缩解压缩命令详解
    inux下文件权限设置中的数字表示权限,比如777,677等,这个根据什么得来的
    jmeter接口测试教程
    kafka常用的操作命令
    hadoop常用的操作命令
    linux常用命令
    hive的常用命令
    用shell脚本写一个for循环
  • 原文地址:https://www.cnblogs.com/buzhizhitong/p/5715602.html
Copyright © 2020-2023  润新知