• 「数据ETL」从数据民工到数据白领蜕变之旅(一)-工具总览


    在人人都是数据分析师的时代,没有哪个人哪个岗位可以和数据脱钩。数据分析的前提是有干净完整规范的数据存在,为了这个前提,许多人活在数据民工的状态(天天搬砖干苦累活),将大量的时间耗费在一些无意义的、没价值的、产出低的数据处理中。本系列以非IT级别的视角,给大家指明一条进步之路,让更多人可以享受到数据白领的工作状态(轻松,多用脑,体面的)。

    工具真的重要吗?

    许多业务专业强的人,通常开口就说工具不是最重要,业务思维才是最重要,才能产生最大的价值。

    如果能够攀升到有专门的下手帮忙处理他们口中的不重要的事,那是值得恭喜的,但也请这些高高在上的,多体贴一下下手的辛劳,在你们觉得不重要的事情上,他们在每天耗费着自己宝贵的生命。

    在信息技术时代,工具的作用是不可忽视的,没有工具,只有脑袋,不懂得把非脑袋该做的脏累活分派给工具去完成,就如同现在算个数不用计算机,而用学生时代的纸和笔一样,完全是自讨苦吃。

    我们要选择什么样的数据工具?

    为了得到一个能够使用的数据源,需要有一个数据准备的过程,此过程专业一点来说,是数据ETL的过程(Extract 抽取,Transfrom转换、Load加载),在拿到最初的数据源用作数据分析时(甚至有时还要自己准备去做好模板去分发供生产数据环节使用),我们必须要用足够多的工具来应付我们不同的场景需求。

    因不同的场景需求,不同的工具的适应匹配度也不同,没有哪个工具是万能的。所以千万不要抱死一个工具去做这些数据ETL的脏累活。

    在笔者眼中,现有的工具是分为微软系工具和非微软系工具,因着笔者的认识的局限性,仅在微软系的领域给大家分享。但相信对于普通数据工作者,平衡成本和收益来说(学习成本、工具成本、使用场景范围等考虑),没有哪个非微软系的工具能够进入我们的关注视野。

    小型数据场景最佳选择:OFFICE软件+第三方插件

    若只是临时性的小型的数据ETL过程,最合适的工具莫过于我们每天都要面对的OFFICE软件(版本越高越好,越能带出更大的生产力效力,起码最低要OFFICE2010)。

    有时我们自己能够完成的部分,还需要分享给其他人也能掌握完成,俗称我们做一个模板给其他人,让其他人能够更低门槛去完成,这个在日常工作中也是一个很常见的场景需要。自己会做了,还要让别人也能跟着做,最好能够将工作甩出去,让其他人轻松完成。

    OFFICE软件毕竟是一个通用性的软件,而我们的工作场景是特定性的,使用起来必然没有定制化软件好用、易用。

    所以出现了Excel催化剂这样的第三方插件,让其可以更加容易在特定场景上使用快速完成特定的任务,而同时又不需要定制化从零开始开发一个软件工具来操作(通常也是可行性非常低的,需求是无限的,预算是有限,并且很多定制化需求都是昂贵的。)

    Excel催化剂现有的100+功能中,起码有90+的功能是为了服务数据ETL部分的,相信在Excel催化剂的这一系列辅助功能的支持下,数据民工的状态将得到非常大的改善。

    无论是第三方插件亦或是OFFICE的原生功能,也都同样归属于可以满足我们工作中的需求,让我们工作更方便快捷,没有必要非要去纠结我不用插件来完成,就是要自己用原生功能去东凑西凑各种小技巧来实现。

    同样地,OFFICE软件也在进化,不断地追加新的功能满足更多的工作场景,并且让工作更简单,所以很有必要对OFFICE软件追新,保持最新的版本最佳的方式就是安装OFFICE365了。

    中小型数据场景最佳选择:PowerQuery+Excel催化剂

    在自助式BI工具中,微软系的是PowerBI系列,其中支持数据ETL部分是PowerQuery,其在Excel、PowerBIDeskTop和Sqlserver的SSAS上都可使用。

    此工具的学习成本不高,但产出还是很可观的。继承微软一贯的产品风格:图形化操作,并可在代码级别做更深入的扩展。最近一两年,社区的教程也是慢慢齐全起来,可以说是不错的低投入高产出的工具。

    在Excel催化剂的众多功能中,也是站在一个资深数据分析师的视野,充分挖掘了数据ETL过程中的刚需功能,将复杂的共性的功能进行提炼,最终落实到插件层面供简单调用完成。同时在性能和处理效率上也是可以满足中型数据场景的需求。

    在学习PowerQuery和Excel催化剂上可以做一些平衡,尽量用其最擅长的领域功能,不必非要对某个功能非要使用哪个工具完成,例如合并工作薄功能,在PowerQuery上,擅长规范化的数据源,在Excel催化剂上,擅长不规范的数据源。

    每款工具都有其的优劣势的表现,某些发烧友极客将某个工具某些功能进行了太深入的扩展应用,并以此为傲。普通学习者来说需要懂得分辨,工具学习的二八原则下太深纠一些不太实用的功能,花费了大量的精力,反而可能产出是不高的。

    中大型的企业级数据场景

    企业级的应用,很多时候和个人的应用场景关注的点不一样,例如需要更关注:稳定性、性能、自动化、权限分配合理等。

    在专业的数据ETL领域,微软系有Sqlserver提供的SSIS(数据集成服务),当然此处也略带分享下其他的专业工具,但一经对比,相信读者们还是会钟情于SSIS。

    从网络文章上截取了其他人做的一些对比分析,最出名的是Informatica和datastage这两款,但价格也是很感人的,单买个工具就要将近100万。

    细心读者可以看到有Kettle这一款免费的工具使用,但成本通常不止于软件成本,还有学习成本,反正笔者这样的水平是不太敢轻易去冒险一款开源免费,功能有限,学习成本高昂的工具。

    而在SSIS方面,其实也算是免费的工具,购买Sqlsever附送免费使用,并且性能也非常出色,特别是对中小型企业的数据规模来说,已经非常能够胜任了。可要知道很多大厂的产品都是独立分开着一套套地单独销售的,并且价值昂贵。

    许多读者可能会担心这些IT级别的产品学习成本也很高,很难驾驭。但工具的趋向是将复杂部分封装,对外是简单的输出使用,例如Excel催化剂,使用层面是非常简单的界面操作型,但内部的复杂是笔者给封装好,无需用户关注的。

    SSIS的学习曲线其实并不算高,全程也是图形化操作,对数据库有一些认识,熟悉SQL语句,熟悉使用PowerQuery的群体,也一样可以玩得转。

    在可扩展性方面,SSIS提供了dotNET脚本的接口,理论上再复杂的处理都可以驾驭得住,而无需类似PowerQuery那样是封闭性的,例如它不提供正则表达式的功能,就永远用不上,在SSIS上就不存在。

    同样地论性能和功能的丰富性来说,若PowerQuery这种自助式的数据ETL不能满足现状需求,很建议再往前一步,走进SSIS的领域瞧一瞧。

    云时代的选择-Azure Data Factory(数据工厂)

    时代在发展,特别是数据领域,现在已经迈进了大数据时代,除了数据量大,还伴随着大量的非结构化数据如语音、长文本、视频、图片等,若使用传统的SSIS这样的工具,已经很难胜任了,所以微软给到我们的方案是Azure Data Factory,使用SAAS服务,让专业的人做专业的事,我们只需按需来使用即可。

    微软给到我们的架构图如下,除了数据的抽取外,还可以使用到Azure的机器学习、认知服务AI等功能来对非结构化数据进行分析加工,转换为结构化的数据供下游的数据建模和分析工具使用。

    结语

    时代在进步,人的能力也被重新要求,在数据领域,数据ETL的本领的掌握,能够帮助我们从数据民工式的繁重工作中得以解脱出来,换来的是我们通过脑力的劳动,学习先进的工具,更轻松地完成数据加工、整理、处理等工作。

    与笔者一起走一遍,从Excel基本操作、Excel催化剂的功能掌握、PowerQuery自助式ETL工具的学习,到专业ETL工具SSIS,再到云时代的ETL工具Azure Data Factory,按需学习,当前不满足时,可离开舒适区,再往前行,必然会有开阔天空在等着你。

    笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。*

    关于Excel催化剂

    Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

    Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

    Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

    联系作者

    公众号

    取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

    最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

    关于Excel催化剂作者

    姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
    服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

    技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
    历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

    擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

    2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

    和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。

  • 相关阅读:
    SDU暑期集训排位(8)
    hdu1423 最长公共上升子序列
    poj2385 Apple Catching (线性dp)
    hdu5857 Median(模拟)
    hdu5858 Hard problem(求两圆相交面积)
    shuoj 1 + 2 = 3? (二分+数位dp)
    Codeforces Round #460 (Div. 2) B Perfect Number(二分+数位dp)
    hdu4734 F(x)(数位dp)
    hdu3709 Balanced Number (数位dp)
    hdu3652 B-number(数位dp)
  • 原文地址:https://www.cnblogs.com/ExcelCuiHuaJi/p/11331575.html
Copyright © 2020-2023  润新知