• Spark学习笔记-GraphX-1


    Spark学习笔记-GraphX-1

    标签: SparkGraphGraphX图计算
     2339人阅读 评论(0) 收藏 举报
     分类:
     

          Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对图进行并行计算。


    Spark GraphX基本操作:

    [plain] view plain copy
    1. import org.apache.spark.SparkContext  
    2. import org.apache.spark._  
    3. import org.apache.spark.graphx._  
    4. import org.apache.spark.graphx.Graph  
    5. import org.apache.spark.graphx.Edge  
    6. import org.apache.spark.graphx.VertexRDD  
    7. import org.apache.spark.graphx.util.GraphGenerators  
    8. import org.apache.spark.graphx.GraphLoader  
    9. import org.apache.spark.storage.StorageLevel  
    10. import org.apache.spark.rdd.RDD  
    11.   
    12. object SparkGraphx1 {  
    13.   
    14.   def main(args: Array[String]) {  
    15.   
    16.     val sc = new SparkContext("spark://centos.host1:7077", "Spark Graphx")  
    17.   
    18.     //创建点RDD  
    19.     val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array(  
    20.         (3L, ("rxin", "student")), (7L, ("jgonzal", "postdoc")),  
    21.         (5L, ("franklin", "prof")), (2L, ("istoica", "prof"))))  
    22.     //创建边RDD  
    23.     val relationships: RDD[Edge[String]] = sc.parallelize(Array(  
    24.         Edge(3L, 7L, "collab"), Edge(5L, 3L, "advisor"),  
    25.         Edge(2L, 5L, "colleague"), Edge(5L, 7L, "pi")))  
    26.     //定义一个默认用户,避免有不存在用户的关系  
    27.     val defaultUser = ("John Doe", "Missing")  
    28.     //构造Graph  
    29.     val graph = Graph(users, relationships, defaultUser)  
    30.       
    31.     //点RDD、边RDD过滤  
    32.     val fcount1 = graph.vertices.filter { case (id, (name, pos)) => pos == "postdoc" }.count  
    33.     println("postdocs users count: " + fcount1)  
    34.     val fcount2 = graph.edges.filter(edge => edge.srcId > edge.dstId).count  
    35.     println("srcId > dstId edges count: " + fcount2)  
    36.     val fcount3 = graph.edges.filter { case Edge(src, dst, prop) => src > dst }.count  
    37.     println("srcId > dstId edges count: " + fcount3)  
    38.       
    39.     //Triplets(三元组),包含源点、源点属性、目标点、目标点属性、边属性  
    40.     val triplets: RDD[String] = graph.triplets.map(triplet => triplet.srcId + "-" +   
    41.         triplet.srcAttr._1 + "-" + triplet.attr + "-" + triplet.dstId + "-" + triplet.dstAttr._1)  
    42.     triplets.collect().foreach(println(_))  
    43.       
    44.     //度、入度、出度  
    45.     val degrees: VertexRDD[Int] = graph.degrees;  
    46.     degrees.collect().foreach(println)  
    47.     val inDegrees: VertexRDD[Int] = graph.inDegrees  
    48.     inDegrees.collect().foreach(println)  
    49.     val outDegrees: VertexRDD[Int] = graph.outDegrees  
    50.     outDegrees.collect().foreach(println)  
    51.       
    52.     //构建子图  
    53.     val subGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")  
    54.     subGraph.vertices.collect().foreach(println(_))  
    55.     subGraph.triplets.map(triplet => triplet.srcAttr._1 + " is the " + triplet.attr + " of " + triplet.dstAttr._1)  
    56.         .collect().foreach(println(_))  
    57.      
    58.     //Map操作,根据原图的一些特性得到新图,原图结构是不变的,下面两个逻辑是等价的,但是第一个不会被graphx系统优化  
    59.     val newVertices = graph.vertices.map { case (id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")) }  
    60.     val newGraph1 = Graph(newVertices, graph.edges)  
    61.     val newGraph2 = graph.mapVertices((id, attr) => (id, (attr._1 + "-1", attr._2 + "-2")))  
    62.       
    63.     //构造一个新图,顶点属性是出度  
    64.     val inputGraph: Graph[Int, String] =  
    65.         graph.outerJoinVertices(graph.outDegrees)((vid, _, degOpt) => degOpt.getOrElse(0))  
    66.     //根据顶点属性为出度的图构造一个新图,依据PageRank算法初始化边与点  
    67.     val outputGraph: Graph[Double, Double] =  
    68.         inputGraph.mapTriplets(triplet => 1.0 / triplet.srcAttr).mapVertices((id, _) => 1.0)  
    69.           
    70.     //图的反向操作,新的图形的所有边的方向相反,不修改顶点或边性属性、不改变的边的数目,它可以有效地实现不必要的数据移动或复制    
    71.     var rGraph = graph.reverse  
    72.       
    73.     //Mask操作也是根据输入图构造一个新图,达到一个限制制约的效果  
    74.     val ccGraph = graph.connectedComponents()  
    75.     val validGraph = graph.subgraph(vpred = (id, attr) => attr._2 != "Missing")  
    76.     val validCCGraph = ccGraph.mask(validGraph)  
    77.           
    78.     //Join操作,原图外连出度点构造一个新图  ,出度为顶点属性  
    79.     val degreeGraph2 = graph.outerJoinVertices(outDegrees) { (id, attr, outDegreeOpt) =>  
    80.         outDegreeOpt match {  
    81.             case Some(outDeg) => outDeg  
    82.             case None => 0 //没有出度标识为零  
    83.         }  
    84.     }  
    85.       
    86.     //缓存。默认情况下,缓存在内存的图会在内存紧张的时候被强制清理,采用的是LRU算法  
    87.     graph.cache()  
    88.     graph.persist(StorageLevel.MEMORY_ONLY)  
    89.     graph.unpersistVertices(true)  
    90.       
    91.     //GraphLoader构建Graph  
    92.     var path = "/user/hadoop/data/temp/graph/graph.txt"  
    93.     var minEdgePartitions = 1  
    94.     var canonicalOrientation = false // if sourceId < destId this value is true  
    95.     val graph1 = GraphLoader.edgeListFile(sc, path, canonicalOrientation, minEdgePartitions,  
    96.       StorageLevel.MEMORY_ONLY, StorageLevel.MEMORY_ONLY)  
    97.   
    98.     val verticesCount = graph1.vertices.count  
    99.     println(s"verticesCount: $verticesCount")  
    100.     graph1.vertices.collect().foreach(println)  
    101.   
    102.     val edgesCount = graph1.edges.count  
    103.     println(s"edgesCount: $edgesCount")  
    104.     graph1.edges.collect().foreach(println)  
    105.   
    106.     //PageRank  
    107.     val pageRankGraph = graph1.pageRank(0.001)  
    108.     pageRankGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.pr")  
    109.     pageRankGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
    110.       
    111.     //Connected Components  
    112.     val connectedComponentsGraph = graph1.connectedComponents()  
    113.     connectedComponentsGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.cc")  
    114.     connectedComponentsGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
    115.       
    116.     //TriangleCount主要用途之一是用于社区发现 保持sourceId小于destId  
    117.     val graph2 = GraphLoader.edgeListFile(sc, path, true)  
    118.     val triangleCountGraph = graph2.triangleCount()  
    119.     triangleCountGraph.vertices.sortBy(_._2, false).saveAsTextFile("/user/hadoop/data/temp/graph/graph.tc")  
    120.     triangleCountGraph.vertices.top(5)(Ordering.by(_._2)).foreach(println)  
    121.   
    122.     sc.stop()  
    123.   }  
    124.     
    125. }  




  • 相关阅读:
    Tomcat服务器原理详解
    junit入门
    lombok
    java 运行指定类的main函数
    席位分配问题——惯例Q值法和d&#39;hondt法的MATLAB程序
    5.2 calendar--通用日期的相关函数(3)
    [笔记]软件体系结构(1)--模式初印象
    hdu 1003
    linux虚拟机上挂载U盘
    Android中Java与web通信
  • 原文地址:https://www.cnblogs.com/zDanica/p/5471617.html
Copyright © 2020-2023  润新知