
©作者 | 沈笑,海南大学副教授、博导
研究方向 | 图域适应、跨网络分类等
邮箱 | shenxiaocam@163.com
本文介绍一篇发表于 AAAI-2025 的论文,面向开放集跨网络节点分类的排除未知类别的对抗图域对齐 [1]。

论文题目:
Open-set Cross-network Node Classification via Unknown-excluded Adversarial Graph Domain Alignment
论文作者:
沈笑,陈志豪,潘世瑞,周爽,杨天若,周犀
论文单位:
海南大学,澳大利亚格里菲斯大学,香港理工大学,郑州大学,加拿大圣弗朗西斯塞维尔大学
论文链接:
https://ojs.aaai.org/index.php/AAAI/article/view/34247
论文代码:
https://github.com/3480430977/UAGA

前言
在图数据分析领域,标签通常很昂贵、有限甚至不可用。跨网络节点分类(Cross-network Node Classification, CNNC)[2] 是近期图机器学习领域的热点研究方向,旨在迁移从标签丰富的源网络中学习的知识,帮助缺乏标签的目标网络预测节点标签。
现有的跨网络节点分类方法普遍基于闭集假设,即要求源网络和目标网络共享相同的类别空间。然而,在现实世界的实际应用中,目标网络可能包含源网络中没有出现过的新类别。例如,在跨平台的在线社交网络用户兴趣预测场景中,新形成的目标社交网络中的用户可能包含成熟的源社交网络中没有出现的新兴趣类别。
为突破闭集假设的限制,该论文研究更为现实和新颖的开放集跨网络节点分类(Open-set Cross-network Node Classification, O-CNNC)问题,如图 1 所示,目标网络不仅包含源网络中所有的已知类别,还包含额外的“未知”类别。
开放集跨网络节点分类问题的目的是:将目标网络中 1)属于源网络已知类别的节点分类到对应的已知类别,2)属于目标网络私有类别的节点识别为“未知”类别。

▲ 图1:开放集跨网络节点分类(O-CNNC)问题示意图
处理开放集跨网络节点分类任务,面临两大挑战:
1)由于目标网络完全无标签,无法得知目标网络中哪些节点属于源网络出现过的已知类别,哪些节点属于目标网络中新出现的“未知”类别。因此,如何构造一个边界,分离目标网络中的已知类别和“未知”类别,是解决开放集跨网络节点分类的一大挑战;
2)不同网络之间的分布差异会阻碍基于源网络上训练的模型直接应用于目标网络。在开放集跨网络节点分类问题中,由于目标网络存在源网络未出现的“未知”类别,如像先前的闭集跨网络节点分类方法那样直接对齐源网络和目标网络的整体分布,则会把目标网络未知类别的分布与源网络已知类别的分布对齐,导致负迁移,从而加大识别目标网络未知类别的难度。
因此,如何在排除目标网络未知类别的前提下,将目标网络的分布与源网络对齐,是解决开放集跨网络节点分类问题的另一大挑战。
为解决上述挑战,该论文提出了一个基于排除未知类别的对抗图域对齐模型(Unknown-excluded Adversarial Graph Domain Alignment, UAGA),主要创新点包括:
现有的基于梯度反转层的对抗域适应方法 [3] 始终为来自不同域的所有样本分配正的域适应系数。UAGA 首次在对抗域适应中使用负的域适应系数来排除未知类别的样本。
通过为未知类别的节点分配负的域适应系数,为已知类别的节点分配正的域适应系数,UAGA 使得目标网络的已知类别节点与源网络对齐,并将目标网络的未知类别节点推离源网络。
与计算机视觉领域的开放集域适应方法不同,该论文首次从图结构数据的角度,针对开放集跨网络节点分类问题,证明了同质性定理 1:即目标网络的节点,无论属于已知类别或未知类别,均倾向于与其具有相同类别的其他节点相连。
受定理 1 启发,UAGA 构建了一个 K+1 维的邻域聚合节点分类器,同时处理已知类别的节点分类和未知类别的节点检测。与采用基于阈值的 K 维分类器检测未知类别的方法相比,UAGA 构建的 K+1 维分类器避免了调节阈值的困难。
UAGA 设计了一个先分离再域适应的框架,首先通过对抗训练学习一个边界来粗糙分离未知类别和已知类别,随后进行排除未知类别的对抗图域对齐。

问题定义
给定一个有标签的源网络 和一个无标签的目标网络 。令 和 分别表示 和 的原始标签空间,,其中, 表示源网络的已知类别集合, 表示出现于目标网络而源网络未见的新类别集合。
将目标网络所有私有类别 表示为一个新的“未知”类别(即第 K+1 类),则可获得一个新的目标网络标签空间 。
开放集跨网络节点分类的目的是学习一个最优分类器,使得:1)标签属于 中的目标网络节点,被分类到前 K 个已知类别中对应的一个,2)标签属于 中的目标网络节点,被识别为第 K+1 类(未知类别)。
定理 1:O-CNNC 目标网络对于 K+1 类的同质性。给定一个目标网络 ,其原始标签空间为 ,其中,。
假设存在一个映射 ,其中, 中的所有类别都被映射为一个新的类别,即第 K+1 类。如果 对于 具有同质性,那么 对于 也应具有同质性。
论文提供了定理 1 的证明 [1]。根据定理 1,对于开放集跨网络节点分类中具有同质性的目标网络,无论节点属于已知类别还是“未知”类别,都倾向于连接具有相同标签的其他节点。
受此启发,UAGA 采用一个图神经网络编码器和一个 k+1 维的节点分类器来聚合邻居节点的信息,从而联合处理已知类别分类和未知类别检测两个任务。

方法
UAGA 的模型框架如图 2 所示,采用一个先分离后域适应(Separate-Adapt)的训练策略,先粗略分离已知类别和未知类别,再进行排除未知类别的对抗域对齐。
3.1 分离阶段:粗糙分离已知类别和未知类别
在分离阶段,UAGA 采用一个对抗学习框架,对抗训练一个基于注意力机制的图神经网络编码器 和一个 K+1 维的邻域聚合节点分类器 ,从而学习可粗糙分离已知类别和未知类别的决策边界。UAGA 采用图注意力网络(GAT)构造 来学习节点嵌入:

受启发于定理 1,UAGA 采用一层的 GAT 构造一个 K+1 维的邻域聚合节点分类器 ,自适应地从 K+1 维聚合来自邻居的标签预测信息:

其中, 是节点 经过邻域聚合之后的标签预测概率向量。基于源网络已知类别的已知标签信息,定义节点分类损失 :

最小化损失 ,可学习具有标签鉴别性的节点嵌入来分离不同已知类别的节点。
在开放集跨网络节点分类问题中,我们还需检测出目标网络中属于未知类别的节点。受启发于经典的开放集域适应方法 OSBP [4],UAGA 通过对抗训练 和 ,学习粗糙分离已知类别和未知类别的决策边界:
一方面,训练 K+1 维的邻域聚合节点分类器 ,让每个目标网络节点 第 K+1 维的预测概率(即属于未知类别的概率)尽可能等于 ,即 ,其中,。
另一方面,通过以下两种方式之一,训练图神经网络编码器 以最大化邻域聚合节点分类器 的错误率,即让 尽可能不等于 :方式 1)让 尽可能大于 ,从而把节点 分类为未知类别;或方式 2)让 尽可能小于 ,从而把节点 分类为某种已知类别。
采用二元交叉熵损失定义未知类别识别损失 :

和 的对抗训练通过优化以下目标来实现

其中, 和 是 和 的可学习的参数。为了同时更新 和 ,我们参照 OSBP [4] 插入一个梯度反转层在反向传播过程反转梯度的符号。通过以上的对抗训练, 可以学习一个粗糙分离已知类别和未知类别的决策边界,而 将目标网络中的所有节点尽可能推离这个边界。
3.2 域适应阶段:排除未知类别的对抗域对齐
域适应阶段旨在排除目标网络未知类别的前提下,将目标网络已知类别的分布与源网络对齐。然而,由于跨网络节点分类问题中目标网络完全没有标签,我们无法知道目标网络中哪些节点属于未知类别。因此,我们需先给目标网络中的节点分配伪标签。
采用 K-means 聚类算法将目标网络中的所有节点划分为 K+1 个簇。其中,前 K 类对应于已知类别,第 k 个簇的初始质心定义为源网络中属于第 k 种已知类别的节点嵌入的平均值,即:。
第 K+1 个簇对应于未知类别,由于源网络并未出现该类别,我们选出目标网络中未知类别预测概率最高的 R 个节点来构建伪未知类别节点集:,然后用 中所有节点嵌入的平均值来计算第 K+1 个簇的初始质心,即:。
给定所有 K+1 个簇的初始质心,目标网络中的每个节点会被分配到其最近质心对应的簇,相应地得到一个聚类标签矩阵 。然而,仅仅使用聚类标签可能会包含噪声,因此,我们仅当目标网络中节点的聚类标签和分类标签预测结果完全一致时,才会为其分配伪标签,如下:

此外,如果 中的节点没有通过上述方式被分配伪标签,则默认其伪标签为未知类别。具有伪标签的目标网络节点通过优化以下目标网络分类损失函数 ,以自训练的方式迭代训练 和 :

最小化 ,可充分利用来自目标网络的潜在监督信号,循序渐进地学习一个精确的边界,来分离已知类别和未知类别的节点。
为有效解决开放集跨网络节点分类问题,对齐源网络和目标网络已知类别的分布是至关重要的。然而,先前的分离阶段所采用的 OSBP 方法 [4] 在对抗学习期间没有直接利用域信息 [5],因此无法显式地减小不同网络中已知类别的分布差异。
针对该问题,UAGA 参照传统的闭集跨网络节点分类方法 [6],进一步引入一个域鉴别器 。 由一个多层感知机构造,以节点嵌入作为输入,输出 表示节点 来自目标网络的预测概率。域分类损失定义如下:

其中,如果节点 来自源网络,则 ;否则 。
和 通过优化以下目标函数,进行对抗训练:

其中, 和 是用于权衡不同损失影响的超参数, 是 的可学习参数。为了同时更新所有可学习参数,可插入一个梯度反转层,在反向传播期间反转梯度的符号并乘上域适应系数 。
需要注意的是,在传统的基于梯度反转层的对抗域适应方法 [3] 中,对于不同域的所有样本,域适应系数 总是设置为一个正数。然而,这样的设定对于开放集跨网络节点分类任务是有问题的。
因为如果 对所有样本都设置为一个正数,将会把目标网络中的所有节点都与源网络对齐,而没有排除目标网络中未知类别的节点,进而导致模型对未知类别的识别能力不可避免地下降,出现负迁移。
为了解决该问题,UAGA 创新地提出为未知类别的节点分配负的域适应系数,为已知类别的节点分配正的域适应系数,如下:

一方面,为源网络的节点以及目标网络中属于已知类别的节点分配正的域适应系数 ,类似于传统的闭集对抗域适应方法, 和 通过对抗训练,可为不同网络已知类别的节点学习具有网络不变性的节点嵌入。
另一方面,为目标网络中属于未知类别的节点分配负的域适应系数 ,则会让 和 往相同的方向训练以同时最小化 ,从而使得目标网络中未知类别的节点嵌入与源网络已知类别的节点嵌入很容易区分开。
因此,UAGA 可以对齐不同网络已知类别的分布,同时使得目标网络中属于未知类别的节点远离源网络,防止负迁移。

实验
4.1 数据集
在开放集域适应问题中,开放性(openness)表示目标域私有类别的数量占目标域原始类别的数量的比例 [7],即 。由于当前被广泛使用的跨网络节点分类基准数据集 [2] 仅包含了 5 个节点类别,限制了对不同 openness 场景下开放集跨网络节点分类任务的评估。
针对此问题,该论文构建了新的面向开放集跨网络节点分类的基准数据集,已在 GitHub 分享(https://github.com/3480430977/UAGA),数据集的统计信息如表 1 所示。基于 Citation-v1(C)、DBLP-v4(D)和 ACM-v8(A)3 个数据集,可构建不同 openness 下的 6 组开放集跨网络节点分类任务。

▲ 表1:论文新构建的面向开放集跨网络节点分类的基准数据集的统计信息
4.2 Baselines
UAGA 与 9 个最先进的基线方法进行对比,包括:
-
开放集域适应方法:OSBP [4],OMEGA [8]
-
开放集节点分类方法: OODGAT [9],G2Pxy [10]
-
闭集跨网络节点分类方法:UDAGCN [11],AdaGCN [12],SGDA [13]
-
开放集跨网络节点分类方法:SDA [14],UDANE [15]
4.3 评价指标
论文采用 4 个评价指标对不同方法处理 O-CNNC 的性能进行评估,包括:
1)OS* 表示所有已知类别准确率的平均值;
2)OS 表示所有类别(即包含已知类别和未知类别)准确率的平均值;
3)HS 是实例级别的已知类别和未知类别准确率的调和平均值;
4)AUC 用于评估未知类别的检测性能。
对于每组 O-CNNC 任务,论文对每种对比方法都进行了 5 次随机初始化实验,并汇报了 5 次实验评价指标的平均值和标准差。
4.4 实验结果
开放集跨网络节点分类在 openness=4/9 场景下的实验结果,如表 2 所示。UAGA 在 6 组 O-CNNC 任务上的性能指标始终高于 SOTA 基线方法。UAGA 比 SOTA 的开放集跨网络节点分类方法提升显著的原因包括:
1)学习节点嵌入,UDANE 和 SDA 采用 GCN,而 UAGA 采用 GAT。近期的开放集节点分类文献 [9, 16] 已揭示,像 GAT 这样基于注意力的模型比 GCN 具有更强的未知类别检测能力。这是因为 GCN 在邻域聚合过程中平等地对待所有的邻居,而 GAT 自适应地给来自不同分布的邻居分配较小的权重。
2)为决定目标网络中某个节点属于已知类别还是未知类别,UDANE 和 SDA 都采用一个(对已知类别进行预测的)K 维分类器加阈值的方式。然而,找到一个最优的阈值来分离已知类别和未知类别是非常困难且耗时的 [10]。不同于此,UAGA 通过添加一个额外的类别(即第 K+1 类)来表示未知类别,构造了一个 K+1 维的分类器,避免了阈值调试。

▲ 表2:开放性 =4/9 场景下 6 组任务的开放集跨网络节点分类结果。
在不同 openness 下的开放集跨网络节点分类性能,如图 3 所示。随着开放性的增加,OS* 会上升而 AUC 会下降。这是因为更大的开放性,意味着更多的目标域私有类别和更少的源域已知类别,这自然使得已知类别的分类变得更加简单,而未知类别的检测变得更加困难。
此外,我们可以看到 UAGA 在不同开放性下 4 种评价指标的总体性能,始终优于所有基线方法。这反映了 UAGA 已知类别分类和未知类别检测的性能,对于不同的开放性具有鲁棒性。
论文采用 t-SNE 方法对不同方法学习的跨网络节点嵌入进行可视化。如图 4 所示,AdaGCN 为不同的已知类别形成了清晰的簇,然而难以识别未知类别(灰色)。OODGAT 难以对齐不同网络相同的已知类别。
UDANE 和 SDA 在一定程度上从已知类别中分离未知类别,然而,不同类别之间的边界不够清晰。UAGA 对已知类别和未知类别都生成了最好的可视化,其中,已知类别的目标网络节点被正确地与源网络相应的已知类别对齐,而未知类别的节点(灰色)被显著地分开。

▲ 图3:不同 Openness 下任务 D→C 的开放集跨网络节点分类性能。

▲ 图4:任务 C→A 的跨网络嵌入的可视化。灰色代表未知类别,其他颜色代表不同的已知类别。

总结
论文研究了一个新颖的开放集跨网络节点分类(O-CNNC)问题,允许目标网络中包含源网络未见的新类别。为有效处理开放集跨网络节点分类问题,论文提出了一个先分离后域适应的 UAGA 框架。
首先,通过对抗训练一个基于注意力机制的图神经网络编码器和一个 K+1 维的邻域聚合节点分类器,初步构造一个粗稿分离已知类别和未知类别的决策边界。
其次,不同于以往的跨网络节点分类方法直接匹配整个目标网络和源网络的分布,论文提出排除未知类别的对抗域对齐,显式地从跨网络分布匹配中排除目标网络的未知类别。传统的对抗域适应方法总是在梯度反转层中为不同域的所有样本分配正的域适应系数。
UAGA 创新地提出为属于未知类别的节点分配负的域适应系数,为已知类别的节点分配正的域适应系数。
一方面,正的域适应系数,引导图神经网络编码器和域鉴别器进行对抗训练,从而为不同网络已知类别的节点学习具有网络不变性的嵌入。
另一方面,负的域适应系数,引导图神经网络编码器和域鉴别器往相同的方向进行训练,从而使得未知类别的节点嵌入很容易与已知类别的节点嵌入区分开。因此,UAGA 只会将目标网络中已知类别的节点与源网络对齐,同时让目标网络中未知类别的节点远离源网络,避免负迁移。
在多组数据集的丰富实验结果表明,相比于 9 个最先进基线方法,论文提出 UAGA 模型在开放集跨网络节点分类的准确性上具有显著的提升。
(文:PaperWeekly)