python机器学习-中文文本特征提取

#中文分词
def cut_word(text):
     text=" ".join(list(jieba.cut(text)))
     return text

#中文文本的特征提取
def count_chinese_dome():
    data=["10艘中俄军舰穿过津轻海峡，这一举措合乎国际法，无可指摘，却引起日本国内“异样反应”。"
          "19日，日本内阁官房副长官矶崎仁彦称，日方对此“高度关注”，"
          "“将对我国周边海空域进行警戒和监视，采取万全的应对姿态”。"]
    data_new=[]
    # for sent in data:
    #     data_new.append(cut_word(sent))
    data_new=[cut_word(sent) for sent in data]
    # 1.实例化一个转换器对象
    transfer = CountVectorizer(stop_words=[])  # 停用词
    # 2.调用fit_transform()
    data_new_2 = transfer.fit_transform(data_new)
    print(data_new_2.toarray())
    print(transfer.get_feature_names())
    print(data_new_2)

#Tf-idf文本特征抽取
def tfidf_demo():
    data=["10艘中俄军舰穿过津轻海峡，这一举措合乎国际法，无可指摘，却引起日本国内“异样反应”。"
          "19日，日本内阁官房副长官矶崎仁彦称，日方对此“高度关注”，"
          "“将对我国周边海空域进行警戒和监视，采取万全的应对姿态”。"]
    data_new=[]
    # for sent in data:
    #     data_new.append(cut_word(sent))
    data_new=[cut_word(sent) for sent in data]
    # 1.实例化一个转换器对象
    transfer = TfidfVectorizer(stop_words=[])  # 停用词
    # 2.调用fit_transform()
    data_new_2 = transfer.fit_transform(data_new)
    print(data_new_2.toarray())
    print(transfer.get_feature_names())

相关阅读:
【BZOJ4903】
nuxt中引入svg
vue-spa微信分享，在ios端，分享不成功的原因及解决办法
安装包
nuxt中刷新页面后防止store值丢失
nuxt项目如何设置代理接口
nuxt引入jquery和bootstrap
如何在nuxt中引入scss
创建nuxt项目
微信分享

原文地址：https://www.cnblogs.com/fengchuiguobanxia/p/15432546.html