• 02-gnp-smallworld 图机器学习之最小世界


    本节重点:如何衡量一个网络 (网络量化)
    网络的关键属性:
    1. 度的分布:P(k)
    2. 路径长度:h
    3. 集聚系数(clustering coefficient):C
    4. 连通分量(connected components):s

     1. 度的分布 degree distribution:P(k)
    统计每个节点的度,形成归一化后的直方图

    2. 路径
    3. 距离:最短路径
    4. 直径:网络中任意节点最短距离的最大值
    5. 平均路径长度(针对连通图或强连通的有向图)
    6. 集聚系数(无向图):
       首先,看单个节点,其与邻居的连接关系如何。例如节点i,他的度为ki,ei是节点i的邻居间的边的数量
     
    平均集聚系数:
    7. 连通性: 最大连通分量(子图/分支)的尺寸,使用BFS广度优先方式

    接下来开始量化现实世界中的网络
    MSN的联系网络


    对分布取log
    集聚:
    度对应的集聚系数
    弱连通分支尺寸的统计:

    若连同分支的半径:
    平均路径长度为6.6,90%的节点可最小经由8跳后连接

    随机图模型  Erdös-Renyi Random Graphs
    两类变量(针对无向图):
    Gnp:n个节点,边的出现(顶点相连)满足概率p
    Gnm:n个节点,均匀随机选取m个边

    n和p不能唯一确定一个图谱,该图谱是随机过程的结果
    Gnp的属性:
    度的分布:p(k) —— 满足二项分布
    路径长度:h
    集聚系数: C
    p(k)表示度为k的节点的概率
    k- 表示度的期望
    均值,和方差可通过公式计算
    根据大数定律,随着网络规模的增大,分布变得越来越窄,因而可以确定一个点的度在k附近
    随机模型的集聚系数较小
    如果我们生产不同网络规模但平均度为k的网络,随着网络规模的增大,集聚系数以C的倍数衰减
    膨胀Expansion:
    图G(V,E)的膨胀α:
    事实上,对于一个节点数为n,expansion为α的图,对于所有节点的对,路径长度O((log n)/α).
    随机图具有良好的可扩展性,因此BFS访问所有节点需要对数步长
    随机图的规模可以变得很大,但节点间的距离会保持在较小的数
    对随机图的评估:

    Giant Component

    一个规模很大的网络中,可能存在多于一个的连通分支/连通分量(Connected Component),即网络中并非所有节点都连通。但是在真实网络中通常存在一个规模很大的连通分支(即Giant Component)会包含网络中大多数的节点(比如超过80%的节点)。

    如果一个人刚注册人人,还没加好友,那他就是一个孤立点(没有和任何其他点相连)。而一旦有了好友,就不再是孤立点。如果某个学校规定学生在人人只能加本校好友,不能有外校好友,那么这个学校的学生也会构成一个小的独立的连通分支。不过可以想到,人人里绝大多数的同学都处在一个超大的连通分支中,真正孤立的节点或小的连通分支所占用户数是很少的。

    Facebook的数据显示约99.7%的用户处在一个超大的Giant Component中。

    随机图的图结构随p变化的示意图:
    当p==0时,该图各节点无连接
    当p==1/(n-1),即平均度为1时,出现giant component
    当p==c/(n-1)时,平均度为一常数,但有多数的孤立点
    当p==log(n)/(n-1)时,更少的孤立点
    当p==(2*log(n))/(n-1)时,没有孤立点
    当p==1时,为完全连通图

    giant component的出现:(这个没太看懂)
    通过MSN验证上面的推论:
    1. 度的分布:二项分布→不成立
    2. 平均路径长度:O(log n)   MSN中,n为180M,log n≈8.2  实际为6.6 →满足推论
    3. 集聚系数: 度的期望/节点个数  约在8*10-8  不等于0.11→不满足推论
    4. 最大连通分量:若度的平均期望>1,则giant component存在,实际上包含99%的点→满足推论
    因此,在在很大程度上,现实世界的网络,并不是随机图
    随机图存在的问题:
    度的分布与现实世界的网络不同
    在大多数真实的网络中,giant component并不是通过phase transition产生的
    集聚系数太低
    既然如此,我们为什么还有学习随机图模型?
    因为:
    他是其他类型模型的参考模型
    帮助我们理解和计算许多属性,从而与真实数据做比对
    它将帮助我们理解某一特性在多大程度上是某个随机过程的结果
    因此:
    虽然随机图模型不实际,但是很有用!

    最小世界模型 the small world model
    在具有高集聚的情况下同时路径最短?
    在上面的推理中,MSN网络的集聚系数的量级比随机图的高7个量级
    其他一些真实网络的例子,如:
    演员合作网络,电网网络,神经元网络,他们的平均路径长度与随机网络的量级一致,但集聚稀疏的量级比随机网的大

    最小世界:高集聚,半径的量级为log n
    集聚意味着边缘的局部性
    随机性使得捷径存在
    最小世界模型的两个成分:
    1. 从一个低维规则的晶体开始
        在例子中,我们使用一个环作为晶体
        拥有高的集聚系数
    2. 连接:引入随机性 (捷径)
        添加/删除边,用于生成连接较远的晶体间的捷径
        对于每一条边,移动另一端点到随机端点的概率为p


    下图中,横轴为移动概率p,左纵轴为集聚系数,右纵轴为平均路径长度,可以看出,p的概率越大,集聚系数下降,平均路径长度下降。从降低的斜率来看,需要较大的随机性来破坏集聚性,但较小的就能创造最短路径。

    如何创造一个最小世界?—— 一些随机的连接
    Watts Strogatz Model:

    提供了集聚性与最小世界的相互作用
    捕捉许多现实网络的结构
    现实网络的高集聚性
    没有引向正确的度分布???(不太确定)
    Kronecker Graph Model
    创建大的真实图谱

    设想:如果我们递归生成网络会怎么样?

    递归生成网络的结构会是怎样的?→ 自相似性
          对象类似于自身的一部分:整体与一个或多个部分形状相似
    模拟递归的图谱生成/社区增长:

    Kronecker product
    克罗内克积:是生成自相似矩阵的方式



    数学上,克罗内克积是两个任意大小的矩阵间的运算。克罗内克积是张量积的特殊形式,以德国数学家利奥波德·克罗内克命名。






    定义两个图的克罗内克积,主要是使用两图的连接矩阵

    克罗内克图是通过图的克罗内克积的迭代生成的




    随机克罗内克图:
    1. 生成n*n的概率矩阵
    2. 计算概率矩阵的克罗内克积
    3. 对于最后的结果,每个元素表示两个端点间的连接概率


    得到概率矩阵后如何得到图? 抛硬币? 那这样需要抛n²次的硬币,太慢
    是否有更快的方式?
    是的
    设想:探索克罗内克图的递归结构
        逐个将图的边放置?那么如何放置一个具备n=2^m个端点的图的边?→ 拆解并重插入

    快速生成克罗内克图的算法:(理解得不是很透)



    真实网络与克罗内克较为相似








    附件列表

    • 相关阅读:
      [LintCode] Set Matrix Zeros
      [LintCode] Identify Celebrity
      [LintCode] Edit Distance
      [LintCode] Edit Distance II
      [LintCode] Strings Serialization
      二十七. Keepalived热备 Keepalived+LVS 、 HAProxy服务器
      二十六. 集群及LVS简介 LVS-NAT集群 LVS-DR集群
      二十五 存储技术与应用 iSCSI技术应用 、 udev配置 NFS网络文件系统 、 Multipath多路径 、 NFS网络文件系统 、 udev配置
      二十三.Subversion基本操作、使用Subversion协同工作、制作nginx的RPM包
      二十二. 安装部署Tomcat服务器、使用Tomcat部署虚拟主机、使用Varnish加速Web
    • 原文地址:https://www.cnblogs.com/combfish/p/12271462.html
    Copyright © 2020-2023  润新知