计算图与机器学习的演进
我对深度学习的关注逐渐转向图神经网络,背后的原因是图的结构以及它们在解决关系问题和支持分布式计算方面的高效性。真正的技术演进发生在将相同的结构应用于先进的机器学习算法时。从简易的矩阵分解和线性回归算法到图神经网络(GNN)的实现,我们见证了这一过程的变化。
本文将深入探讨图的定义、优点及其在机器学习框架中的实现方式,同时也会讨论图的兼容性以及其随时间的演变。
图是一种能够共同定义信息的关系型数据结构,由非线性的节点和链接组成。现实中的数据,如LinkedIn和Facebook社交网络、Netflix电影数据库、Google地图及路径优化,通常只能通过图的形式来表示。以家谱为例:
每个家庭成员可以视为家族树图(G)中的一个顶点(V),而其关系则通过边(E)来定义。当我们提取特定家庭成员的信息时,了解他们之间的关系是至关重要的,否则数据将显得不完整。每个节点和链接都有其独特的意义与数据。相同的图可以通过多种方式表示,也可以通过不同的链接值来自下而上地构建祖先图。
计算图
计算图是一种包含方程式数据的图,通常用于表示数学表达式的有向图。后缀、中缀和前缀计算是常见的例子。图中的每个节点可能包含运算、变量或方程式本身,这类图在计算机进行的多数计算中都能找到其身影。
图的优点
图提供了一种独特的结构,可以有效地表示多种现实问题。与典型的表或矩阵相比,图的顺序优先级并不高,而是强调元素之间的相互依赖关系,这是所有假设和基于此进行预测的核心。图的优点包括:
- 节点链接结构:图的节点链接结构能够存储大量信息,关系问题往往仅能通过这种格式来表示。尽管还有矩阵、树形图等其他结构,但图的主要构成不可或缺。
- 分布式计算:单个核心或系统难以处理数十亿个节点/元素的复杂问题。图的分布式计算特性节省了大量计算资源,并降低了时间复杂度。
- 关系问题:通常使用包含独立输入和各自输出标签的数据集,但在面对基于最近观看记录、喜爱演员或音乐等的电影推荐时,这样的关系问题只能通过图来解决。即使尝试无监督学习,也只能预测集群,而无法给出确切的标签或联系。
让我们以Netflix电影预测为例:假设类型、演员、语言和发行日期是图的主要节点,许多电影将其标签链接到这些节点。根据电影的不同,系统存储首选的属性节点。Netflix利用个性化视频排名(PVR)算法,根据存储的图形数据来预测电影,并在每种流派或标题中应用Top-N Video Ranker算法,将流行选择与个人偏好结合,以预测电影。
机器学习中的图
所有神经网络都可以视为计算图,线性回归等算法也能以图的形式表示。传统图与神经网络的主要区别在于其实现方式。神经网络通常模仿计算图进行训练,但无法处理类似图的数据结构,它们需要结构化的数据才能正常运行。通过神经网络中的正向传播来理解这一点:
假设有一个包含8个节点和16个链接的图形,x1和x2输入节点紧密连接到隐藏层节点,然后这些节点也连接到输出层。x1和x2的值将传递到隐藏层,隐藏层执行A=WX+B。连接隐藏层和输出层的链接激活这些值,其方程为H = function(A)。在输出层中也执行类似的过程。这张图能够表示神经网络中正向传播的方程。
演进
在打下基础知识后,我们将探讨图神经网络(GNN)的形成原因及其与人工神经网络(ANN)的不同之处。如今,机器学习在多个自动化行业中广泛应用,并为众多组织和研究提供了最先进的成果。分布式图计算源于高效的并行计算、稳定的图结构,以及在社交网络、知识图谱等众多现实应用中的实现。将这两种技术结合将带来巨大的收益,并为更好的开发与效率开辟新的研究领域。
图引擎框架
为了弥合图与机器学习算法之间的差距,已有多种尝试。图缺乏训练这些算法所需的关键属性。在将图计算与机器学习相结合时,循环、异构性和数据一致性方面的支持不足,数据抽象成为主要关注点。
图形引擎框架如TUX2和GraphLab提出了一些模型来解决特定问题。它们成功地将分布式图形计算与矩阵分解和Latent Dirichlet分配算法相结合,但在神经网络方面仍显不足。与能够使用GPU进行计算的深度学习框架不同,这些引擎主要依赖于分布式计算。
GNN简介(ANN与GNN)
神经网络已经取代了许多静态算法,引领了当前的机器学习行业。市场对基于图的、与深度学习直接相关的技术的需求日益增长,图神经网络的出现正是为了应对传统引擎的局限性和GPU支持的不足。
图神经网络代表了一种新的深度学习领域,旨在从图数据中学习。随着图卷积网络、LSTM网络等技术的引入,该领域展现出巨大的潜力。这些网络本身就是图结构,并利用相似的数据进行训练。诸如CORA和SNAP等图形数据集被用作基准测试。
如果人工神经网络是计算图,那么我们为何需要GNN?这个问题有时令人困惑,但让我们从基础知识入手。人工神经网络的输入通常以矩阵格式呈现,或多或少是有序数据,而社交网络等问题则更强调链接的优先性。在图中,可以通过选择根节点及其特定链接来推导顺序。作为计算图的人工神经网络,仅仅意味着它们是相互关联的前馈数学表达式。网络及其使用的数据的依存关系图存在显著差异。尽管两个网络都包含dense、softMax、ReLU等层和函数,但在每个计算和处理方面却有所不同。标准的密集层意味着完全互连,而在GNN中情况可能并非如此。传统神经网络主要解决分类和回归问题,但在面对社交网络或知识图时,它们往往表现不佳。这些问题属于需要直接图形输入的关系问题。
在人工神经网络中,模型的结构已被定义,输入及其输出被馈入模型。基于图的网络的训练与预测在某种程度上是无监督的。因此,如果要预测特定LinkedIn成员的姓名,可以通过他的1度、2度人脉、公司及机构的隶属关系进行操作,而无需实际了解他的标签。
当今的图神经网络发展迅速,这些知识是我们必须掌握的。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
