设为首页 加入收藏

TOP

spark graphx 教程01(graphx基本概念)
2019-05-15 01:24:32 】 浏览:333
Tags:spark graphx 教程 基本 概念

spark graphx是什么

GraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a new Graph abstraction: a directed multigraph with properties attached to each vertex and edge. To support graph computation, GraphX exposes a set of fundamental operators (e.g., subgraph, joinVertices, and aggregateMessages) as well as an optimized variant of the Pregel API. In addition, GraphX includes a growing collection of graph algorithms and builders to simplify graph analytics tasks.

简单来说,graphx 就是spark封装对图计算的抽象封装,这里的图计算主要是指 多重图 的计算,多重图的概念请看后面会讲到;phx继承自rdd,所以有分布式计算的特性;其中非常重要的2个概念是顶点(vertex)和边(edge)

vertex和edge

  • vertex表示顶点,举个例子,一个一个的人就是一个一个的顶点,人有许多属性,比如姓名、年龄等等,vertex也有很多属性
  • edge表示边,也可以理解成点和点之间的关系,比如人与人之间的关系:父亲、老师、妻子、p友等等

多重图

  • 含有平行边的图称为多重图。也称若图中某两个结点之间的边数多于一条,又允许顶点通过同一条边和自己关联,则称为多重图
  • 如何理解2个节点之间的边数多于1条?举例人与人之间的关系可以既是同事又是朋友
    此处输入图片的描述

spark graphx能做什么

  • PageRank
    这个应该都知道吧,搜索引擎计算网页得分用的

  • 最短路径
    计算点与点之间最小的路径,比如把世界上所有人和人的关系弄成图后,通过计算最短路径,你就能知道你走什么关系能最快联系到特朗普

  • 社群发现
    计算社区中三角形的个数,三角形越多,表示关系越稳固

  • ALS
    做推荐要用到

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇Spark入门(Python版) 下一篇        ..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目