• python系列(1)数据清洗的几种方法


    1. 导入数据集

    d1 = pd.read_excel('清洗数据.xlsx',sheetname='一级流量')
    d2 = pd.read_excel('清洗数据.xlsx',sheetname='二级流量')
    d3 = pd.read_excel('清洗数据.xlsx',sheetname='三级流量')
    

    2. 拓展数据维度

    # 纵向扩展维度
    df = pd.concat([d1,d2,d3])
    
    # 横向合并
    df = pd.concat([d1,d2,d3],axis=1)
    # merge 横向合并
    pd.merge(left=h1,right=h2,left_index=True,right_index=True,how='inner')
    # 删除空值
    df.dropna()
    # subset参数,只有当这一行中指定字段参数为空值时,才能删除
    dropna(subset=['city'])
    # 去重
    unique = repeat.drop_duplicates()
    

    3. 查询

    # 按条件查询
    df.loc[(df['访客数']>10000) & (df['流量级别'] == '一级'),:]
    
    # 排序
    sort_df = df.sort_values('支付金额',ascending=False)
    
    # 分桶
    pd.cut(x,bins,right,labels)
    # x 可以是一维数组,可以是列表,也可以是dataframe中的一列
    # bins分组的间隔方法
    # right=True表示分组的区间包含右边不包含左边,right=False 表示分组的区间包含左边不包含右边
    # labels 根据分组打标签
    
    df['分类标签'] = pd.cut(x = df['访客数']
                       ,bins = [0,100,200,300]
                       ,right=True
                       ,labels=['辣鸡','优秀','非常满意'])
    
    
    
  • 相关阅读:
    2019-10-28-开源项目
    2018-8-10-win10-uwp-MetroLog-入门
    2018-5-20-C#-BBcode-转-Markdown
    2018-8-10-win10-UWP-序列化
    2018-2-13-win10-uwp-BadgeLogo-颜色
    2019-1-25-WPF-ListBox-的选择
    2019-1-5-Windows-的-Pen-协议
    android studio打印
    Java 基本数据类型
    FreeRTOS 任务通知模拟计数型信号量
  • 原文地址:https://www.cnblogs.com/yangjiez/p/11887754.html
Copyright © 2020-2023  润新知