• 电商 Python 生意参谋 市场排行 高流量商品 分词处理


    原文:
    https://www.jianshu.com/p/7ad0cd33005e

    前言

    数据太多了,懒得一个一个看,想先大致了解这个类目下哪个产品卖的多,哪类产品卖得好些
    只是一个简单的分析

    环境

    在生意参谋的市场行业中,下载类目前300的商品

    然后保存商品的表到excel中,然后导出csv文件,把列名改为title,在文本编辑器中,把编码改为utf-8

    在cmd控制台安装结巴分词
    pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

    所用的和生成的文件



    python代码

    # 导入相关库
    import pandas as pd
    import jieba
    
    # 读取数据
    data = pd.read_csv('meidi_jd.csv', encoding='utf-8')
    
    data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))
    
    
    # 将所有的分词合并
    words = []
    
    for content in data['cut']:
        words.extend(content)
    
    # 创建分词数据框
    corpus = pd.DataFrame(words, columns=['word'])
    corpus['cnt'] = 1
    
    # 分组统计
    g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)
    
    g.to_excel('data1.xls')
    
    
  • 相关阅读:
    内置函数二
    通信的几个程序
    TCP协议和UDP协议
    异常处理
    logging模块
    网络编程一些概念
    hashlib
    序列化模块
    time,sys,os模块
    random模块
  • 原文地址:https://www.cnblogs.com/guxingy/p/14667047.html
Copyright © 2020-2023  润新知