• Preppin' Data 一个prep提高数据整理能力的网站(每周一挑战)


    最近几天,一直练习prep数据整理清洗,越来越感到tableau prep builder的方便,快捷。

    今天练习从https://preppindata.blogspot.com/2019/03/2019-week-4.html的案例,也是tableau public上推荐的类似MakeoverMonday的每周一练。 

    讲解 的非常详细,适合初中级别的我。

    使用正则表达式

    prep封装了几个正则表达式函数 , 例如:

     

    对提取字段非常方便。

    挑战记录 2019-9

    https://preppindata.blogspot.com/2019/04/2019-week-9.html

    解答:https://preppindata.blogspot.com/2019/04/2019-week-9-solution.html

    简介:tweet上针对商家的一款产品的各种评论。老板希望能够收集评论中有价值的词语。于是进行筛选。

    ⚠️这是英文评论的数据清洗,中文则有中文的特点。

    1拆分,原始数据只有1列,因此按照" "拆分成多列。

    2转置,把多列,转为1列。以便进行后面的清洗。

    3清洗,

    • 去掉无价值的商标词语,
    • 使用REGEXP_REPLACE( [words raw], "[^ws'’-]", " "),把非字母/数字/下划线/空格/-的其他字符转化为空格“ ”。 ⚠️s代表空格,^代表取反,w代表字母/数字/下划。
    • 过滤掉空值。
    • 清洗多余空格。

    4拆分,因为上一步使用正则表达式,比如"I'm"会->“I m”,所以要再次使用空格作为分隔符拆分。

    • 滤掉空值

    5转置,列转行。

    6left-outer join,  把另一个表"常用的250个英文单词"和这个清洗过的表关联。即通过left-outer join, 过滤掉常用词。

    挑战记录2019-10

    解答:https://preppindata.blogspot.com/2019/04/2019-week-11-solution.html

    简介:客户通过订阅/关注某公司发送个给他的邮件来购买其公司的产品。公司记录了客户订阅信息,和客献购买的价值,并分别存放到数据表中。

    要求:分析流失客户的购买价值,和订阅/再订阅客户的购买价值。

    • 数据清洗
    • 表连接
    • 聚合分析

  • 相关阅读:
    python模块总结(一)命令行解析模块argparse
    TCP(一)三次握手和四次挥手
    容器网络(四)vxlan
    容器网络(三)容器间通信
    kvm虚拟化(二)网络虚拟化
    KVM虚拟化(一)创建虚拟机
    数字操作 —— 9_ 回文数
    数字操作 —— 8_字符串转换整数(atoi)
    数字操作 —— 7_整数反转
    字符串操作 —— 763_划分字母区间
  • 原文地址:https://www.cnblogs.com/chentianwei/p/12761730.html
Copyright © 2020-2023  润新知