• 大数据intern_1总结:数据埋点以及SQL复习


    1⃣️首先整理一下大厂中的大数据开发工作内容主要是什么:

      公司内部的人员,主要是产品和运营,他们会想知道推出了某一活动之后这个活动的运营状况或者某个按钮按下之后的点击率等信息,而我们要做的就是将运营提出来的需求转化为字段,把数据给运营提取出来。

    关于埋点数据:

    1. 数据埋点是数据产品经理、数据运营以及数据分析师,基于业务需求(例如:CPC点击付费广告中统计每一个广告位的点击次数),产品需求(例如:推荐系统中推荐商品的曝光次数以及点击的人数)对用户行为的每一个事件对应的
    2. 位置进行开发埋点,并通过SDK上报埋点的数据结果,记录数据汇总后进行分析,推动产品优化或指导运营。这里比较明显的存在就是埋点数据平台!
    3. 初级的数据埋点:在产品流程关键部位植相关统计代码,用来追踪每次用户的行为,统计关键流程的使用程度。
    4. 中级的数据埋点:在产品中植入多段代码追踪用户连续行为,建立用户模型来具体化用户在使用产品中的操作行为。
    5. 高级的数据埋点:与研发及数据分析师团队合作,通过数据埋点还原出用户画像及用户行为,建立数据分析后台,通过数据分析、优化产品。

    2⃣️好的,其实上面都不是人话,总结下来就是分析或者整理下来的用户操作轨迹数据逐渐完整从而为更完备的结果进行服务。那么还有一个问题,什么是产品上线?PV/UV是什么?主要流程页面之间的转化率?

      PV的英文来是Page View的缩写,意思是“页面访问量”。用户每次刷新被计算源一次pv。 UV的全称是Unique Visitor,意思是“独立访问者”。访问您网站的一台电脑客户端为一个访客。24小时之内,同一地址,多次访问,只算一次。PV/UV 就是平均一个独立访问者所dao浏览的页面访问量

      转化率:不说概念直接上例子:10名买家看到某个搜索推广的结果,其中5名买家点击了某一推广结果并被跳转到目标URL上,之后,其中2名买家有了后续转化的行为。那么,这条推广结果的转化率就是(2/5)×100%=40%。  转化率是网站最终能否盈利的核心,提升网站转化率是网站综合运营实力的结果。

    3⃣️那么产品的第一次埋点和第二次埋点分别是在哪些环节发生的?

    在产品的第一次上线时通常会埋以下几个点:PC&Web端会统计产品的PV/UV,注册量,主要流程页面之间的转化率、日活人数等等。而移动端还要统计产品在Appstore,各大安卓市场的下载量。第二次埋点会根据产品目标及上线后的问题进行分析。比如,当你发现产品首页的UV很高,注册量却非常低,你就需要分析出用户在首页的行为,如30%的用户退出了产品,60%的用户进入了注册页,但只有1%的用户注册了该产品。这也就意味着,注册流程可能出现了问题,需要进一步细化注册各个流程,增加数据埋点,分析各个流程之间的转化率,找到产品出现的问题并解决。

    4⃣️产品的基本数据指标

    新增:新用户增加的数量和速度。如:日新增、月新增等。

    活跃:有多少人正在使用产品。如日活跃(DAU)、月活跃(MAU)等。用户的活跃数越多,越有可能为产品带来价值。

    留存率:用户会在多长时间内使用产品。如:次日留存率、周留存率等。

    传播:平均每位老用户会带来几位新用户。

    流失率:一段时间内流失的用户,占这段时间内活跃用户数的比例。

    5⃣️主要的埋点事件分类

    点击事件

    点击事件,用户点击按钮即算点击事件,不管点击后有无结果;如下图红框标注所示,点击一次记一次。

    曝光事件

    成功打开一次页面记一次,刷新页面一次记一次,加载下一页新页,加载一次记一次。home键切换到后台再进入页面,曝光事件不记;

    页面停留时间事件

    表示一个用户在X页面的停留时长记为停留时长。例如:小明9:00访问了X网站首页,此时分析工具则开始为小明这个访问者记录1个Session(会话)。接着9:01小明又浏览了另外一个页面列表页,然后离开了网站(离开网站可以是通过关闭浏览器,或在地址栏键入一个不同的网址,或是点击了你网站上链接到其他网站的链接……)为了简单,我们把这个过程当做一个Session。

    6⃣️再来说几个产品easyfetch是让运营快速滴获取数据、easydesign实际上就是生成表,也就是类似埋点数据表,如下图所示。那么easydesign的用处实际上就是让开发更好滴了解运营的需求,也就是埋点规范化的一种表现,虽然其实埋点规范化是开发做的,也就是让数据开发的人更清晰的了解客户需求。网易取数实际上就是将easyfetch和easydesign合并起来的功能,既能够将数据整合起来也能够对数据进行显示,也就是通过拖拽获取数据以及后面的数据可视化。

    有关埋点规范方面:

    首先先从jira中导入任务需求,进行埋点数据管理,埋点数据管理的名称要求是

    本文参考文献:https://www.jianshu.com/p/bcc2c110ff92

     

    其中page和subpage或者和其他之间可以用-进行连接,然后没有就写无

    说明一下subpage就是有tab键的地方,module就是类似一个横向的模块,比如歌单模块(有很多歌单),然后歌单内还有对应的位置来标定不同的歌单,然后是ID也就是我们要处理的一个控件名,最后说明是什么操作,可能的操作如下:

     OLAP数据提取

    第一个需求:增加两列

    直播方面主要其实只有用户表和主播表两个表,实际上这样的表是从萌吗上面dump下来的,而这个表其实对应的是一个调度任务,也就是对应的SQL文件夹,一个任务有很多个表对应着不同的SQL语言。

    数据仓库

    数据仓库相关的术语

    https://zhuanlan.zhihu.com/p/109339768

    https://www.douban.com/group/topic/50841728/

    CDM层主要功能

    CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用一些维度退化手法,减少事实表和维度表的关联,容易维度到事实表强化明细事实表的易用性;同时在汇总数据层,加强指标的维度退化,采取更多宽表化的手段构建公共指标数据层,提升公共指标的复用性,减少重复的加工。

    ADS层主要功能

    • 个性化指标加工:不公用性;复杂性(指数型、比值型、排名型指标)
    • 基于应用的数据组装:大宽表集市、横表转纵表、趋势指标串

    其模型架构图如下,阿里通过构建全域的公共层数据,极大的控制了数据规模的增长趋势,同时在整体的数据研发效率,成本节约、性能改进方面都有不错的结果。 

  • 相关阅读:
    Qt Quick之QML与C++混合编程详解
    Qt QML与C++混合编程
    Qt QML和QtQuick简介以及QML实例
    Qt 渐变 QLinearGradient、 QConicalGradient、QRadialGradient
    Qt 加载HeightMap(高度图)构造3D地形图
    VisionPro内嵌脚本编译时显示:未定义类型“CogFindCircleTool”。未定义类型“CogToolResultConstants”
    VisionPro CogPMAlignTool
    VisionPro 卡尺原理
    VisionPro 卡尺测量长度的例子
    VisionPro 自学帮助
  • 原文地址:https://www.cnblogs.com/sjh-dora/p/13027582.html
Copyright © 2020-2023  润新知