• 大数据分析复习笔记


    data mining

    • volume
    • veracity
    • variety
    • velocity
    • value

    数据挖掘

    有效性、可用性、出乎意料、可理解性

    Page Rank

    spider traps

    假设有图:

    Alt text

    其邻接矩阵 M为:

    Alt text

    带入公式迭代,结果为: Alt text

    最终,rm=1

    而 ry=ra=0 。这从漫步者的角度很好理解,在经过一段时间之后,漫步者到达了 m 节点,然而 m 节点只有指向自己的链接,然后就只能一直停留在 m,所以最后的概率一定是1, 而其他两个节点的概率就变成了0 。

    解决方案

    随机传送 Random Teleports

    Google解决这个问题的办法是:到达某个节点后 * 有 β

    的概率随机找一个链接过去 * 剩下 1−β 的概率跳到一个随机的页面 * 一般 β 的值在 0.8 到 0.9

    之间

    这样就使得漫步者在到达m节点之后有一定的概率跳出去! Alt text

    Dead Ends

    假设有图:

    Alt text

    其邻接矩阵为:

    Alt text

    由于m节点没有链接到其他界面,所以m的那一列都等于零。 代入公式迭代,得到结果:

    Alt text

    漫步者到达m之后发现是死胡同,无路可走了,然而他也不会在m停留,所以最后出现在三个节点的概率都等于0 。

    解决方案

    依旧是传送

    当漫步者到达死胡同时,传送的概率变为 1.0 ,随机传送到任意页面,然后图就变成了如下:

    Alt text 邻接矩阵变为:

    Alt text

    这样问题就解决了,漫步这每次到m之后,发现去所有页面的概率都相同且不为零,相当于随机跳转到一个页面。

    SVD

    计算流程

    分类

    贝叶斯定理

    计算

    ID3算法

    信息增益

    https://blog.csdn.net/weixin_43216017/article/details/87474045

    image-20201104155544284

    C4.5算法

    改进

    https://blog.csdn.net/weixin_43216017/article/details/87609780

    ID3算法使用的是信息增益,它偏向于分类较多的变量;
    C4.5算法使用的是信息增益比,它偏向于分类较少的变量。

    KNN

    近朱者赤近墨者黑

    聚类

    • 硬聚类
    • 软聚类

    k-means

    • 优点:时间效率 O(tkn),t是迭代次数,k集群数,n的对象数

    • 缺点:

      • k给定
      • 难以处理噪声和离群点
      • 无法处理非凸形状
    • 开始:选k个核

    • 结束条件:

      • 中心不变
      • or设置迭代次数

    层次聚类

    • 聚合 agglomerative

    • 划分 divisive

    • 距离计算公式

      • complete
      • single
      • centroid
      • average
    • O(n2

    推荐系统

    content-based

    优点

    • 不需要其他用户数据
      • 解决了冷启动和稀疏矩阵问题
    • 为用户独特口味推荐
    • 推荐新的、不热门的商品
    • 提供解释

    缺点

    • 有时候难以找到特征
    • 新用户需要建立profile
    • 过于具体,总是推荐喜欢的

    CF

    相似度度量

    • Jaccard
      • 忽略了分值的作用
    • Cosine
      • 缺失值影响大
    • Pearson

    优点

    • 适用于各类商品,不需要管商品特征

    缺点

    • 冷启动问题
      • 需要足够的用户
    • 稀疏矩阵
      • 用户评分矩阵稀疏,难以找到共同评分过的相似用户
    • 第一个评分者问题
      • 推荐不出没有被评分过的商品
    • 大众化
      • 难以满足个人独特口味,趋于推荐热门商品

    Spark

    特点

    • 快速
    • 易用
    • 通用

    多种启动方式

    • hadoop
    • mesos

    生态圈

    NoSQL

    类型

    • graph stores
      • neo4j(cypher 查询语言)
    • document stores
      • mongodb
    • key-value stores
    • wide-column stores

    社会计算

    (重点)六项任务

    • centrality analysis
      • 分析社交网络中节点的重要性 PageRank
    • community detection
      • 聚类
    • classification
      • 分类,有监督的
    • link prediction
      • 给定社交网络,预测节点之间的联系 知识图谱补全
    • viral marketing
      • 病毒营销、outbreak detection
    • network modeling

    社团发现

    依据什么标准可以称为community?

  • 相关阅读:
    精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
    使用sklearn做单机特征工程
    机器学习算法比较
    CNN-卷积层和池化层学习
    卷积神经网络概念与原理
    CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解
    技能|三次简化一张图:一招理解LSTM/GRU门控机制
    【转】TensorFlow四种Cross Entropy算法实现和应用
    http://blog.csdn.net/u014595019/article/details/52805444
    神经网络和深度学习简史(三)
  • 原文地址:https://www.cnblogs.com/cpaulyz/p/14015617.html
Copyright © 2020-2023  润新知