• 迟来的2013年总结


    和去年一样,来一个年终总结吧,算是自己一年的记录。

    工作:

    13年4月18号入职,到现在也有8个多月。
    搞的是数据这行,不是数据挖掘,是数据分析。所以关于大数据的书看了很多。
    工作分为几部分:

    1:在数据平台组,所以工作比较杂。每天都要处理一大堆的业务需求,给出各种各样的统计数据。其实最难得部分在于如何把一个统计需求落实在具体的数据中,比如,日志在哪,应该如何统计才能得到他们要的数字。而诸如如何写hive sql和MR这些东西都非常简单,不用花太多精力。期间迁移并且改造了40多张报表,也算是阶段性的成果吧。

    2:接手了公司的日志收集系统,负责其开发与维护以及应用推广。修改了原版系统若干bug就不说了。做的最重要的两件事就是:
    1.改造它使他能够支持服务的动态插拔,并且消除了单点故障问题,推出了新版的客户端。
    2.日志传到集群上之后要每天进行压缩,原来是早上7点才能把所有日志压缩完毕,现在改进后大概凌晨1点之前就行。所以,对于依赖这些数据进行处理的业务现在也可以提前6个小时处理,在每天上班前就能发送前一天数据报表等等,这样公司的各种领导们就可以及时的看到数据指标了。老大是很赞这个改进的。

    工作中学习了很多新的东西,比如如何使用hive,怎么写sql,怎么写MR,还有shell脚本。数据分析方面也算是了解一些,而且我觉得数据分析挺有趣。我也是我们组唯一一个在数据收集,存储,业务数据统计整个链条中都参与的人。虽然,在他们眼中,我只不过是一个新兵蛋子,不屑一顾,但是我接触了很多东西,多少自己有些心得体会。这一段时间也思考了一下数据平台的本职工作是什么,我的观点:

    提供可靠,稳定,高效的数据统计平台,包括数据收集,存储,数据分析以及展示,发现和分析数据中暴露出的问题,并且提出合理建议,支持其它部门业务的决策。所以我认为它要分两个部分的工作:
    1:提供切实可用的数据分析平台,这个主要是技术方面的。比如提供集群,日志收集,hive等这些必不可少的基础设施与系统。
    2:数据分析。如果说数据平台没有人知道怎么进行数据分析,那么我觉得就相当于一个瞎子拿了一把AK47想和别人PK。枪再好,没有眼睛也没用武之地。

    第二点我们现在做的并不好,所有人现在满脑袋都是技术,所以需要有人出来指出另一个方向。我也正在学习分析这方面的东西,总有人需要做这些事,既然你们不做,那我就来做。我要做一个既要懂技术也要懂数据的人。老大现在也非常支持我做一些数据分析更深入的工作,怎么说呢,加油干吧。

    关于跳槽:

    现在我们组人员跳槽率太高,主要都是因为工作不顺或者太枯燥才走的,搞过数据的人,都知道这份工作是多么的枯燥,乏味以及累。所以,我们的工作量也是越来越大,现在真正做数据平台的人也不过5,6个人,压力很大。能不能扛得住,全看个人。我的目标是坚持3年,第一份工作不能说跳就跳,这是不成熟的表现,也是懦夫的行为。

    要是去年的我看到我今年的东西肯定会接受不了,因为我去年还沉迷于各种技术,Linux,C++,分布式,RPC这些,甚至还看了汇编,总觉得技术牛逼才牛逼。

    但是我现在有一个感觉,就是技术只是我解决问题需要用到一种武器,而我需要用这把武器要打到什么样的猎物才是我关心的,可以说我的关注点从武器转到猎物上面了,这算是一个转变。我现在心里也没什么谱,但是总觉得不能再拿着枪瞎嘚瑟了。不过古语有句话“君欲善其事,必先利其器”,所以技术这面我也不会放下,也还是要花一些心思在上面的,但是度要把握好。

    博客:
    说道写博客,今年大多数的博客都是在学校的时候写的。工作之后基本就没怎么写,因为自己的思绪很乱,整理不出一篇像样的东西。
    学校里写了一些6篇信息检索相关的,都是自己看完书后意淫,没什么实际经验和价值,所以行家看到就呵呵就好了。此外又写了一篇《自己动手实现自旋锁》,我只是把那本书上关于锁的东西证明了一下而已,但是我觉得软件上实现锁这个东西确实很有意思。又写了一篇《自己动手编译、运行Java程序》,也算是对Java的学习,大牛们也可忽略。

    学习:

    今年看的书单列在下面,有些看的很仔细,有些就止于皮毛了,大神见到别笑话。

    *****全部读完
    **** 读完一大半
    ***   看完一半
    **     挑着某些章节看
    *       随便翻了翻
    -       至今还没翻看过

    理论、算法、数学:
    ***** 大数据-互联网大规模数据挖掘与分布式处理 (Anand Rajaraman, Jeffrey David Ullman著)
    ****   概率论基础教程 (Scheldon M.Ross著)
    ***     web数据挖掘 (Bing Liu著)
    **       线性代数 (Steven J.Leon著)
    **       具体数学 (Ronald L.Graham, Donald E.Knuth, Oren Patashnik著)
    *         数理统计与数据分析 (John A.Rice著)
    *         研究之美 (高德纳著)
    *         网络、群体与市场 (David Easley, Jon Kleinberg著)
    *         策略博弈 (Avinash Dixit, Susan Skeath, David Reiley著)

    技术:
    ***** 网站分析实践 (王彦平 吴盛峰编著)
    ***     hadoop技术内幕 (董西成著)
    **       流量的秘密 (Brian Clifton著)
    **       hadoop技术内幕 (蔡斌,陈湘萍著)
    **       BOOST程序库完全开发指南 (罗剑锋著)
    **       数据挖掘与R语言 (Luis Torgo著)
    *         TCP/IP协议族 (Behrouz A.Forouzan著)

    科普、传记
    ***** 浪潮之巅 (吴军著)
    ***** 杰克韦尔奇自传 (Jack Welch, John A.Byme著)
    ***** 习惯的力量 (Charles Duhigg著)
    ***** 大数据时代 (Viktor Mayer-Schonberger, Kenneth Cukier著)
    ***** Big Data (涂子沛著)
    ****   谁是谷歌想要的人才 (William Poundstone著)
    **      失控 (kevin kelly著)
    -        六度分割 (Duncan J.Watts著)
    -        大连接 (Nicholas A.Christakis, James H.Fowler著)

    4月份之前在学校的部分基本就回忆不起来了。工作了之后发现确实比在学校的时候懒了许多,总会拿工作了一天太累为借口而不看书。即使看书也是一些不浪费脑细胞的。
    科普传记看的比较多,可以看出我这一年很浮躁。不过也可能是因为后面这类书的缘故,我得想法和以前有很大的转变。前两类书看的比较少,这是我明年需要加强的地方,需要增加自己的理论功底。大数据的书看的比较多。我经常听别人说"大数据被称为几(具体是1,2,3还是多少我就不知道了)大浮之一",我觉得有这种现象,至少说明这个领域最近很活跃,那么只要它够活跃,还是能出现一些很新颖的东西,所以别管浮不浮,只要自己的心别浮躁就可以。

    现阶段工作目标是从一个技术人员转行称为一名数据分析员,努力干吧。

  • 相关阅读:
    python脚本2_输入2个数比较大小后从小到大升序打印
    python脚本1_给一个半径求圆的面积和周长
    配置双机互信
    如何在 CentOS7 中安装 Nodejs
    Git 服务器搭建
    docker安装脚本
    CentOS7下安装Docker-Compose
    Linux 文件锁
    6 系统数据文件和信息
    bash脚本编程之二 字符串测试及for循环
  • 原文地址:https://www.cnblogs.com/haolujun/p/3533252.html
Copyright © 2020-2023  润新知