• 特征工程-特征提取


    特征提取

    将任意数据(如文本或图像)转换为可用于机器学习的数字特征

    注:特征值化是为了计算机更好的去理解数据

    • 特征提取分类:
      • 字典特征提取(特征离散化)
      • 文本特征提取
      • 图像特征提取(深度学习将介绍)

    字典特征提取

    作用:对字典数据进行特征值化

    • sklearn.feature_extraction.DictVectorizer(sparse=True,…)
      • DictVectorizer.fit_transform(X)
        • X:字典或者包含字典的迭代器返回值
        • 返回sparse矩阵
      • DictVectorizer.get_feature_names() 返回类别名称
    from sklearn.feature_extraction import DictVectorizer
    
    def dict_demo():
        """
        对字典类型的数据进行特征抽取
        :return: None
        """
        data = [{'city': '北京','temperature':100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
        # 1、实例化一个转换器类
        transfer = DictVectorizer(sparse=False)
        # 2、调用fit_transform
        data = transfer.fit_transform(data)
        print("返回的结果:
    ", data)
        # 打印特征名字
        print("特征名字:
    ", transfer.get_feature_names())
    
        return None
    

    文本特征提取

    作用:对文本数据进行特征值化

    • sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
      • 返回词频矩阵
      • CountVectorizer.fit_transform(X)
        • X:文本或者包含文本字符串的可迭代对象
        • 返回值:返回sparse矩阵
      • CountVectorizer.get_feature_names() 返回值:单词列表
    • sklearn.feature_extraction.text.TfidfVectorizer
    from sklearn.feature_extraction.text import CountVectorizer
    
    def text_count_demo():
        """
        对文本进行特征抽取,countvetorizer
        :return: None
        """
        data = ["life is short,i like like python", "life is too long,i dislike python"]
        # 1、实例化一个转换器类
        # transfer = CountVectorizer(sparse=False) # 注意,没有sparse这个参数
        transfer = CountVectorizer()
        # 2、调用fit_transform
        data = transfer.fit_transform(data)
        print("文本特征抽取的结果:
    ", data.toarray())
        print("返回特征名字:
    ", transfer.get_feature_names())
    
        return None
    
  • 相关阅读:
    不同环境下vue-cli3+打包命令配置
    本地node服务启动vue打包项目
    js匿名函数
    本地vue扩展程序。
    vant轮播插件swipe实现三个一屏,并修改指示器样式
    vue中placeholder中使用字体图标
    为什么js中重复多次调用正则时会报错,会交替出现的那种
    create-react-app兼容ie9配置
    react之form表单工具:formik+yup
    Flex布局
  • 原文地址:https://www.cnblogs.com/yeyueweiliang/p/14359517.html
Copyright © 2020-2023  润新知