• 数据可视化之powerBI入门(七)数据清洗中最常使用的十三招


    https://mp.weixin.qq.com/s?__biz=MzA4MzQwMjY4MA==&mid=2484067158&idx=1&sn=4ad955112df2f40a93b684ed9147f26e&chksm=8e0c7181b97bf89777ae3d9de929867745edcbbfe1f2b396761c0cec716b86ee31e439279add&scene=21#wechat_redirec

     

    对导入的数据进行数据整理的过程一般称为「数据清洗」,之所以称之为清洗,是因为在数据分析师眼中,杂乱的数据就是脏数据,只有被清洗成干净的数据后才可以进行分析使用,下面我们就来认识Power Query 的强大数据清洗功能。


    01

    提升标题

    在Excel中第一行为标题行,从第二行开始才是数据,但在PQ中,从第一行开始就需要是数据记录,标题在数据之上,

    因此从Excel导入数据的第一步就是要提升标题,点击「转换」的将第一行作为标题,标题提升就完成了。

    点击将第一行作为标题旁边的下拉按钮,还有个将标题作为第一行,实际上就是拉低标题,这个功能也特别有用,下面会介绍到。

    02

    更改数据类型

    更改数据类型虽然很简单,但设置正确的数据类型非常重要,后期数据建模和可视化过程中,很有可能会出现一些意想不到的错误,最后发现是数据类型设置的不对,所以一开始就养成设置数据类型的好习惯。有两种方式设置数据类型,

    03

    删除错误/空值

    数据导入后,有可能出现错误(Error)或者空值(null),

    做数据分析之前,要想达到右边的效果,需要把它们去掉,操作如下:

    04

    删除重复项

    删除重复项在PQ中非常简单,选中需要删重的列,右键选择「删除重复项」即可:

    05 填充

    在Excel数据中经常会见到合并单元格的情况,导入后就变成了空值,像下面这样:

    在PQ中直接向下填充即可:

    06合并列

    在PQ中选择需要合并的列,然后在「转换」中找到”合并列“,弹出合并列窗口:

    比如刚才的表格,把[区域]和[城市]合并:

    07拆分

    拆分相当于是合并列的反动作,不过功能更丰富,可以选着按字符数,也可以选择按分隔符,如果列中包含多个分隔符,还可以选择按哪个位置的分隔符来拆分:

     

    我们把刚才的合并列再拆分一下,又变成合并前的格式了:

    08分组

    相当于Excel中的分类汇总功能,比如刚才的数据,我们要计算各区域1月份的合计金额,点击分组依据:

     

    把相应参数填上以后,分组完成:

    09提取

    PQ的提取功能可以按照长度、首字符、尾字符、范围等来提取,比如下面这个例子,提取前2个字符:

     

    10 行列转置

    数据处理有的时候需要行列互相转换一下,比如把各各城市变成列标签,月份变成行标签,点击行列转置,

    是不是发现哪里有些不对劲?月份不见了,这是因为转置的时候,只转数据的部分,月份并不在数据区,我们要想保留月份,先要把月份降下来,这里用到我们前面介绍的”将标题作为第一行“,

      

    标题下降以后,再进行转置就可以了,

     

    转置完成,不过还要再把第一行城市提升为标题。

    11 行列操作

    PQ的行列操作十分灵活,非常大规模的数据操作。

    12 逆透视列

    这是PQ非常便捷的逆天功能,由于数据分析的需要,我们经常要将二维表变为一维表,之前在Excel中需要很多操作步骤才能完成,而通过逆透视功能,可以一键降为一维表,

     

    13透视列

    做分析需要一维表,而为了展现的需要,常常还要把一维表变成二维表,也就是Excel中的数据透视,在PQ中同样可以一键透视,比如把刚才的一维表变成原样,聚合方式选择“不要聚合”。

    点击确定就变回原来的二维表了,

     

    以上这些是最基本也是最常用的数据清洗功能,看上去也都很简单,动手操作才能更好的掌握,熟练运用以后基本能搞定大部分数据处理的工作,这些不仅是学习Power BI的必备技能,更能让你的Excel水平短时间内大大提升。

  • 相关阅读:
    Jessica's Reading Problem POJ
    FatMouse and Cheese HDU
    How many ways HDU
    Humble Numbers HDU
    Doing Homework again
    Stacks of Flapjacks UVA
    Party Games UVA
    24. 两两交换链表中的节点
    面试题 03.04. 化栈为队
    999. 可以被一步捕获的棋子数
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/12781137.html
Copyright © 2020-2023  润新知