• 机器学习之scikit-learn库


    前面讲到了,这个库适合学习,轻量级,所以先学它。

    安装就不讲了,简单。不过得先安装numpy和pandas库才能安装scikit-learn库。

    如果安装了anaconda得话,会自带有这个库。

    ----------------------------------------------------------------------------------------------------------

    1、首先进行字典特征提取

    作用:对字典数据进行特征值提取。

    API:sklearn.feature_extraction.DictVectorizer

    流程:1、实例化类  DictVectorizer()

      2、调用fit_transorm方法输入数据并转换

    上代码:

     1 from sklearn.feature_extraction import DictVectorizer
     2 
     3 def dictvec():
     4     '''
     5     字典数据抽取
     6     :return: None
     7     '''
     8     # 实例化
     9     dict = DictVectorizer()
    10 
    11     # 调用fit_transorm
    12     data = dict.fit_transform([{'name':'X','score': 80},{'name':'Y','score': 90},{'name':'Z','score': 100}])
    13 
    14     print(data)
    15 
    16     return None
    17 
    18 if __name__ == '__main__':
    19     dictvec()

     可以看到输出结果是一个Sparse矩阵,前面得括号里面是坐标,后面的数字是这个坐标的值,比如:(0,0) 1.0 表示在第0行0列的值为1。

    其他没有列出来的坐标如(0,1)、(0,2)等的值默认为0.

    将DictVectorizer()中的sparse参数设置为False可以使得结果容易可读。

     2、文本特征提取

    作用:对文本数据进行提取

    API:sklearn.feature_extraction.text.CountVectorizer


    上代码:假设有两篇文章分别为:
    'life is shortm,i like Python'和'life is too long, i dislike Python'
    
    
     1 from sklearn.feature_extraction.text import CountVectorizer
     2 
     3 def countvec():
     4     '''
     5     对文本进行特征值提取
     6     :return: None
     7     '''
     8     # 实例化
     9     cv = CountVectorizer()
    10 
    11     # 调用fit_transorm
    12     data = cv.fit_transform(['life is shortm,i like Python','life is too long, i dislike Python'])
    13 
    14     print(data)
    15     
    16     return None
    17 
    18 if __name__ == '__main__':
    19     countvec()
    
    

    结果和字典提取是一样的,值得注意的是这里要将parse矩阵转换成比较容易读的二维矩阵的话,是在结果中调用toarray(),而不是设置sparse参数
    如下图:

     get_feature_names()返回一个列表,列表里面是提取的所有特征(本例中提取出了8个单词,单个字母不统计)。

    结果中有两个列表,每个列表对应一篇文章。第一个列表中第一个0表示第一篇文章中dislike没有出现,第一个列表中第一个1表示is出现了,依次类推

    
    
    
    
    
    
     
    --------------------成功,肯定是需要一点一滴积累的--------------------
  • 相关阅读:
    sqlmap从入门到精通-第四章-4-6 MySQL数据库导入与导出攻略
    Python文章索引(持续更新~)
    如何用 Python 绘制玫瑰图等常见疫情图
    《民国奇探》的弹幕有点逗比,用 Python 爬下来看看
    发现了合自己胃口的公众号,但文章太多翻来翻去真麻烦,还好我学了 Python
    潘粤明的《龙岭迷窟》到底怎么样?我用 Python 得出了一些结论!
    Python 分析电影《南方车站的聚会》
    使用 Scrapy 爬取去哪儿网景区信息
    Python 爬虫(二):Requests 库
    Python 爬虫(一):爬虫伪装
  • 原文地址:https://www.cnblogs.com/GouQ/p/11838829.html
Copyright © 2020-2023  润新知