汉中网站建设公司电话,网站服务器买了后怎么做,成都网站建设与推广,建设招标网 官方网站基于类注意力转移的知识蒸馏 Class Attention Transfer Based Knowledge Distillation
摘要 以往的知识蒸馏方法在模型压缩任务中展现了卓越的性能#xff0c;然而这些方法难以解释所转移的知识如何提升学生网络的性能。本研究致力于提出一种兼具高可解释性与强大性能的知识蒸…基于类注意力转移的知识蒸馏Class Attention Transfer Based Knowledge Distillation摘要以往的知识蒸馏方法在模型压缩任务中展现了卓越的性能然而这些方法难以解释所转移的知识如何提升学生网络的性能。本研究致力于提出一种兼具高可解释性与强大性能的知识蒸馏方法。我们首先重新审视了主流CNN模型的结构揭示了模型掌握识别输入样本中类别判别性区域的能力对其分类性能至关重要。进一步地我们证明通过转移类激活图可以获取并增强这种能力。基于此发现我们提出了基于类注意力转移的知识蒸馏方法。与先前知识蒸馏方法不同我们深入探究并阐述了该方法所转移知识的若干特性这些特性不仅提升了方法的可解释性更有助于深化对卷积神经网络的理解。在保持高可解释性的同时该方法在多个基准测试中实现了最先进的性能。代码已开源https://github.com/GzyAftermath/CAT-KD1. 引言知识蒸馏将经过提炼的大型教师网络知识转移到小型学生网络中旨在提升学生网络的性能。根据所转移知识类型的不同现有知识蒸馏方法可分为三类基于对数logits转移[3, 6, 11, 16, 33]、基于特征转移[2, 10, 17–19, 23, 24, 28]以及基于注意力转移[29]的方法。尽管基于对数转移和特征转移的知识蒸馏方法已展现出极具潜力的性能[2, 33]但由于对数与特征本身缺乏可解释性很难阐明其所转移的知识如何促进学生网络性能的提升。相对而言基于注意力的知识蒸馏方法的原理更为直观其目标在于指导学生网络在分类过程中应关注输入的哪部分区域这是通过在训练中强制学生网络模仿所转移的注意力图来实现的。然而尽管先前工作AT[29]已验证了转移注意力的有效性但并未阐明注意力在分类过程中扮演的角色。这使得难以解释为何告知训练后的模型应关注何处能够提升其在分类任务上的性能。此外与基于对数转移和特征转移的方法[2, 33]相比先前基于注意力的知识蒸馏方法[29]的性能竞争力较弱。因此本研究致力于提出一种具有更高可解释性和更优性能的、基于注意力的知识蒸馏方法。我们首先探究了注意力在分类过程中所扮演的角色。在重新审视主流模型结构后我们发现经过少量转换如图1所示可以在分类过程中获得一种特殊的类别注意力图——类激活图[34]它指示了输入图像中对于特定类别的判别性区域。在不改变模型参数和输出的前提下转换后模型的分类过程可分为两步(1) 模型利用其识别输入中类别判别性区域的能力为分类任务中包含的每个类别生成对应的类激活图(2) 模型通过计算各类激活图的平均激活值输出每个类别的预测分数。考虑到转换后的模型仅通过比较各类激活图的平均激活值来做出预测因此对于卷积神经网络而言拥有识别输入中类别判别性区域的能力对其执行分类任务至关重要。问题在于我们能否通过在训练过程中提供关于输入图像中类别判别性区域的提示来增强这种能力为回答此问题我们提出了类注意力转移。图1. 转换后的结构示意图。将全连接层转换为具有1×1卷积核的卷积层并调整全局平均池化层的位置后即可在前向传播过程中获取类激活图。在类注意力转移过程中不要求训练中的模型预测输入的类别而仅强制其模仿所转移的类激活图。这些类激活图经过归一化处理以确保它们仅包含关于输入中类别判别性区域的提示信息。通过类注意力转移实验我们发现仅转移类激活图便能训练出一个在分类任务上具有高准确率的模型这表明训练后的模型获得了识别输入中类别判别性区域的能力。此外训练模型的性能受提供转移类激活图的模型准确性的影响。这进一步证明通过转移更精确的类激活图可以增强模型识别类别判别性区域的能力。基于以上发现我们提出了基于类注意力转移的知识蒸馏方法旨在通过提升学生网络识别类别判别性区域的能力使其达到更优的性能。与以往转移暗知识的知识蒸馏方法不同我们阐明了为何向训练模型转移类激活图能够提升其在分类任务上的性能。此外通过类注意力转移实验我们揭示了转移类激活图的若干有趣特性这些特性不仅有助于提升CAT-KD方法的性能与可解释性也促进了对卷积神经网络的深入理解。在保持高可解释性的同时CAT-KD在多个基准测试上实现了最先进的性能。总体而言本研究的主要贡献如下我们提出了类注意力转移方法并利用其证明了识别输入中类别判别性区域的能力这对卷积神经网络执行分类至关重要可以通过转移类激活图来获得和增强。我们阐述了转移类激活图的若干有趣特性这些特性有助于更好地理解卷积神经网络。我们将类注意力转移应用于知识蒸馏并将其命名为CAT-KD。在具备高可解释性的同时CAT-KD在多个基准测试上达到了最先进的性能。2. 背景知识蒸馏的概念由文献[11]首次提出。作为一种迁移学习方法其目标是通过转移从大型教师网络中提炼出的暗知识以提升小型学生网络的性能。现有的知识蒸馏方法主要分为三类基于输出层特征logits的蒸馏[3, 6, 11, 16, 33]、基于中间层特征的蒸馏[2, 10, 17–19, 23, 24, 28]以及基于注意力的蒸馏[29]。据我们所知AT[29]是唯一基于注意力转移的知识蒸馏方法。该方法将注意力图定义为指示模型最关注输入图像区域的空间映射图。在实践中他们通过计算特征图的绝对值求和来获取注意力图。然而AT方法既未阐明注意力在分类过程中的作用也未解释为何以此种方式定义的注意力图转移能够提升学生网络的性能。关于类别注意力的早期研究源于文献[34]。作者提出利用高层特征图与全连接层参数来生成针对特定类别的注意力图并将其命名为类激活图CAM。根据该研究输入图像中具有类别判别性的区域会在对应的CAM中被突出显示。为便于理解我们在图2中可视化了若干CAM示例。后续研究已成功将CAM应用于多种弱监督视觉任务[14, 27, 31]。此外也有诸多工作专注于CAM的泛化改进[1, 21, 26]以及通过利用训练过程中CAM包含的信息来提升模型性能[7, 25]。现有研究尚未明确阐述注意力在分类过程中的具体作用也未充分解释注意力图转移为何能够提升训练模型在分类任务上的性能。本文致力于深入探究这一问题并尝试提出一种兼具高可解释性与竞争力的基于注意力的知识蒸馏方法。图2. 给定图像对应预测分数前四的各类别类激活图可视化。预测类别及其分数已在图中标注。3. 我们的方法在本节中我们首先分析主流卷积神经网络CNN模型的结构揭示识别类别判别性区域的能力对于CNN执行分类任务至关重要。随后我们进一步提出类注意力转移以证明该能力可通过迁移类激活图CAMs来获得与增强。最后我们将CAT应用于知识蒸馏。3.1. 重新审视CNN的结构在图像分类任务中主流模型通常使用CNN提取特征然后将生成的高层特征图进行全局池化并馈入一个简单的全连接层以完成分类[8,9,12]。令F [ F 1 , F 2 , . . . , F C ] ∈ R C × W × H \mathbf{F} [F_1, F_2, ..., F_C] \in \mathbb{R}^{C \times W \times H}F[F1,F2,...,FC]∈RC×W×H表示最后一个卷积层生成的特征图其中C CC、W WW和H HH分别代表通道数、宽度和高度。f j ( x , y ) f_j(x, y)fj(x,y)表示特征图F \mathbf{F}F在第j jj个通道、空间位置( x , y ) (x, y)(x,y)处的激活值而GAP \text{GAP}GAP代表全局平均池化层。那么标准CNN模型计算第i ii类对数特征L i L_iLi的过程可表述为L i ∑ 1 ≤ j ≤ C ω j i × GAP ( F j ) 1 W × H ∑ x , y ∑ 1 ≤ j ≤ C ω j i × f j ( x , y ) , (1) \begin{aligned} L_i \sum_{1 \leq j \leq C} \omega_j^i \times \text{GAP}(F_j) \\ \dfrac{1}{W \times H} \sum_{x, y} \sum_{1 \leq j \leq C} \omega_j^i \times f_j(x, y), \end{aligned} \tag{1}Li1≤j≤C∑ωji×GAP(Fj)W×H1x,y∑1≤j≤C∑ωji×fj(x,y),(1)其中ω j i \omega_j^iωji是全连接层FC层中对应于GAP ( F j ) \text{GAP}(F_j)GAP(Fj)且属于第i ii类的权重。根据[34]我们可以通过下式获得对应类别i ii的类激活图CAM i \text{CAM}_iCAMiCAM i ( x , y ) ∑ 1 ≤ j ≤ C ω j i × f j ( x , y ) . (2) \begin{aligned} \text{CAM}_i(x, y) \sum_{1 \leq j \leq C} \omega_j^i \times f_j(x, y). \end{aligned} \tag{2}CAMi(x,y)1≤j≤C∑ωji×fj(x,y).(2)根据公式1和公式2L i L_iLi的计算可改写为另一种形式L i 1 W × H ∑ x , y CAM i ( x , y ) GAP ( CAM i ) . (3) \begin{aligned} L_i \dfrac{1}{W \times H} \sum_{x, y} \text{CAM}_i(x, y) \\ \text{GAP}(\text{CAM}_i). \end{aligned} \tag{3}LiW×H1x,y∑CAMi(x,y)GAP(CAMi).(3)如公式3所示对数特征可通过计算类激活图的平均激活值获得。受此启发如图1所示我们将全连接层转换为一个1 × 1 1 \times 11×1的卷积层并调整全局平均池化层的位置。那么转换后模型生成的第i ii类对数特征L ˉ i \bar{L}_iLˉi可通过下式计算L ˉ i GAP ( Conv i ( F ) ) 1 W × H ∑ x , y ( ∑ 1 ≤ j ≤ C ω j i × f j ( x , y ) ) GAP ( CAM i ) , (4) \begin{aligned} \bar{L}_i \text{GAP}(\text{Conv}_i(\mathbf{F})) \\ \dfrac{1}{W \times H} \sum_{x, y} \left( \sum_{1 \leq j \leq C} \omega_j^i \times f_j(x, y) \right) \\ \text{GAP}(\text{CAM}_i), \end{aligned} \tag{4}LˉiGAP(Convi(F))W×H1x,y∑1≤j≤C∑ωji×fj(x,y)GAP(CAMi),(4)其中Conv i \text{Conv}_iConvi表示转换后的1 × 1 1 \times 11×1卷积核用于从特征图F \mathbf{F}F中分离出对应于第i ii类的特征ω j i \omega_j^iωji为其第j jj个通道的权重。如公式3和4所示该结构转换不改变模型的预测分数即对数特征。并且类激活图可在转换后模型的分类过程中直接获得。如公式4所示转换后模型的分类过程可视为两个步骤1模型利用其识别输入中类别判别性区域的能力生成类激活图2模型通过计算相应类激活图的平均激活值输出各类别的预测分数。考虑到模型仅通过比较各类激活图的平均激活值进行预测因此具备识别输入中类别判别性区域的能力对CNN执行分类任务至关重要。为探究是否可通过向训练模型提供指示输入图像中类别判别性区域的提示来获得并增强该能力我们提出类注意力转移。3.2. 类注意力转移CAT的目的是探究一个模型是否能够仅通过迁移类激活图CAMs来获得识别输入图像中类别判别性区域的能力。因此在CAT过程中被训练的模型无需执行分类任务且与训练数据类别相关的任何信息例如真实标签和输出对数特征都不会提供给被训练模型。在实践中我们使用一个经过预训练且具有转换结构的模型来生成待迁移的CAMs。CAT过程的示意图如图3所示其形式化描述如下。图3. CAT流程示意图。在CAT过程中教师模型与学生模型的结构均转换为我们提出的形式见图1。对于给定的输入令A ∈ R K × W × H \mathbf{A} \in \mathbb{R}^{K \times W \times H}A∈RK×W×H表示由转换结构生成的CAMs其中K KK是分类任务包含的类别数量W WW和H HH分别表示生成CAM的宽度和高度。A i ∈ R W × H A_i \in \mathbb{R}^{W \times H}Ai∈RW×H代表A \mathbf{A}A的第i ii个通道即对应于类别i ii的CAM。下标S SS和T TT分别表示学生网络和教师网络。此外我们使用平均池化函数ϕ \phiϕ来降低所迁移CAMs的空间分辨率以提升CAT的性能详见第4.2节。那么CAT的损失函数可以定义为L C A T ∑ 1 ≤ i ≤ K 1 K ∥ ϕ ( A i T ) ∥ ϕ ( A i T ) ∥ 2 − ϕ ( A i S ) ∥ ϕ ( A i S ) ∥ 2 ∥ 2 2 . (5) \begin {aligned} \mathcal{L}_{CAT}\sum _{1\leq i \leq K}\dfrac {1}{K}\Vert \dfrac {\phi (A_{i}^{T})}{\Vert \phi (A_{i}^{T}) \Vert _2}-\dfrac {\phi (A_{i}^{S})}{\Vert \phi (A_{i}^{S}) \Vert _2}\Vert _2^{2}. \end {aligned} \tag{5}LCAT1≤i≤K∑K1∥∥ϕ(AiT)∥2ϕ(AiT)−∥ϕ(AiS)∥2ϕ(AiS)∥22.(5)可以看出我们对ϕ ( A i T ) \phi(A_i^T)ϕ(AiT)和ϕ ( A i S ) \phi(A_i^S)ϕ(AiS)进行了ℓ 2 \ell_2ℓ2归一化处理也可以使用ℓ 1 \ell_1ℓ1归一化。这是因为CAM的平均激活值暗示了预测分数见公式(3)进行归一化是为了确保在CAT过程中与输入类别相关的信息不会泄露给被训练模型。另外请注意这里我们迁移所有类别的CAMs这基于我们的发现所有类别的CAMs都包含对CAT有益的信息详见第4.2节。通过CAT实验我们得出的核心发现如下相应的实验验证和详细分析可在第4.2节中找到。识别输入中类别判别性区域的能力可以通过迁移CAMs来获得和增强。所有类别的CAMs都包含对CAT有益的信息。迁移分辨率较小的CAMs效果更好。对于CAT而言被迁移CAMs中包含的关键信息是其中高激活区域的空间位置而非其具体激活值。3.3. CAT-KD在验证了CAT的有效性后我们将CAT应用于知识蒸馏并将其命名为CAT-KD。CAT-KD的损失函数为L K D L C E β L C A T , (6) \begin {aligned} \mathcal {L}_{KD}\mathcal {L}_{CE}\beta \mathcal {L}_{CAT}, \end {aligned} \tag{6}LKDLCEβLCAT,(6)其中L C E \mathcal{L}_{CE}LCE表示标准交叉熵损失β \betaβ是用于平衡CE损失和CAT损失的因子。与以往的知识蒸馏方法不同我们阐明了CAT-KD所迁移的知识如何帮助学生网络提升性能即通过提升其识别类别判别性区域的能力。此外通过CAT实验我们分析并揭示了该方法所迁移知识的若干特性。这进一步增强了CAT-KD的可解释性。4. 实验4.1. 数据集与实现细节数据集。在后续章节中我们主要在以下两个图像分类数据集上探究CAT与CAT-KD1CIFAR-100[13] 包含100个类别的32×32像素图像训练集与验证集分别有5万张和1万张图像。2ImageNet[5] 是一个用于1000个类别分类的大规模数据集包含120万张训练图像和5万张验证图像。实现细节。我们在CIFAR-100和ImageNet上的实现严格遵循[2, 33]的设置。具体而言对于CIFAR-100我们使用SGD优化器批大小为64所有模型均训练240个epoch。初始学习率为0.05对于ShuffleNet[15, 32]和MobileNet[20]为0.01并在第150、180和210个epoch时除以10。对于ImageNet我们训练模型100个epoch批大小为512。初始学习率为0.2每30个epoch除以10。我们使用了多种代表性的CNN网络进行实验VGG[22]、ResNet[9]、WideResNet[30]、MobileNet[20]和ShuffleNet[15, 32]。为保证公平性所有先前方法的结果要么引用自先前论文[2,33]我们保持与其相同的训练设置要么使用作者发布的代码并在我们的训练设置下运行得到。CIFAR-100上的所有结果是5次试验的平均值ImageNet上的所有结果是3次试验的平均值。对于第4.2节和第4.3节报告的所有实验若无特殊说明我们在CAT和CAT-KD过程中将迁移的CAM池化为2×2大小。更多实现细节如β的设置因篇幅限制详见附录。4.2. CAT的探索在本节中我们探究类注意力转移的若干特性这不仅有助于提升CAT-KD的性能与可解释性亦能促进对CNN的更深入理解。请注意在本节报告的实验中未使用与训练集类别相关的任何信息例如真实标签和输出对数特征。识别类别判别性区域的能力可通过迁移CAMs获得并增强。如第3.1节所揭示的能够识别输入中的类别判别性区域对CNN执行分类至关重要。因此该能力的强弱可通过模型在分类任务上的性能来评估。我们在ShuffleNetV1上实施CAT所使用的迁移CAMs由具有不同准确率的模型生成。如表1所示的结果表明仅迁移CAMs即可训练出一个在分类任务上具有高准确率的模型这证明识别类别判别性区域的能力可以通过迁移CAMs获得。此外训练模型的性能受生成迁移CAMs的模型准确率影响这表明通过迁移更精确的CAMs可以增强此能力。表1. 在CIFAR-100数据集上通过CAT方法训练的ShuffleNetV1的准确率(%)。所迁移的CAMs由具有不同准确率的模型生成。所有类别的CAMs均包含对CAT有益的信息。对于给定输入我们可以使用CAM方法[34]为分类任务中包含的任意类别生成类激活图。然而尽管少数非目标类别可能与目标类别存在某些相似性例如形状和模式但从人类理解的角度看其中大多数类别与输入图像完全无关。然而我们的实验表明所有类别的类激活图都包含对CAT有益的信息。我们首先在CIFAR-100上实施CAT但仅迁移特定类别的CAMs。我们设计了两种策略来选择迁移CAMs的类别(1) 选择预测分数最低的n个类别。(2) 选择预测分数最高的n个类别此处我们做出的经验性假设是预测分数越高的类别与目标类别具有更多相似性。如图4左所示结果虽然预测分数较高的类别其CAMs带来的提升更大但其他类别的CAMs同样对CAT有益。此外我们在简化的CIFAR-100上进一步实施CAT即迁移所有类别的CAMs但训练集被缩减为仅包含部分类别的数据。随后训练模型在完整的测试集及其一个子集该子集仅包含训练集中未出现的类别的数据上进行评估。如图4右所示结果有趣的是训练模型在该子集上取得了较高的准确率这表明迁移CAMs使得训练模型能够对训练集中未包含的类别进行分类。这进一步证明即使某些类别的CAMs从人类视角看似乎与输入无关它们仍包含对CAT有益的信息。图4. 在CIFAR-100数据集上使用CAT方法训练的模型准确率。左图仅迁移特定类别的CAMs这些类别通过两种策略选择(1) 选择预测分数最高的前n个类别(2) 选择预测分数最低的后n个类别。右图训练集被缩减为仅包含部分类别的数据。TCIFAR-100的测试集。ST的一个子集仅包含训练集中未出现的类别的数据。迁移更小的CAMs效果更好。直观上更大的CAM包含关于类别判别性区域空间位置的更详细提示因此迁移更大的CAMs理应表现更好。然而模型准确率的不足会导致其生成的CAM中高亮区域与图像实际的类别判别性区域之间存在偏差这可以在图2中观察到。此外不同模型识别类别判别性区域的能力存在差异这会导致生成的CAMs存在细微差别。因此迁移尺寸更大的CAMs并不一定能提升CAT的性能。通过实验我们发现对迁移的CAMs执行平均池化操作可以扩大CAMs中的高亮区域并减少不同模型生成的CAMs之间的偏差从而缓解上述问题。如表2所示结果尽管池化会模糊细节但迁移更小的CAMs始终表现更好。此外由于池化操作扩大了CAM的高亮区域使其能够覆盖更大的类别判别性区域迁移经过池化的CAMs会迫使训练模型关注更多的判别性区域这可以在图5中观察到。在实践中我们将迁移的CAMs池化到更小的尺寸通常为2×2以提升CAT和CAT-KD的性能。表2. 在CIFAR-100测试集上使用CAT方法训练的各种模型的准确率(%)。在CAT过程中CAMs被池化为不同尺寸。所迁移的CAMs由ResNet32×4生成。图5. 我们以一个预训练的ResNet50作为CAMs生成器通过CAT方法从头开始训练另一个ResNet50迁移过程中CAMs被池化为2×2大小。第一行展示了由生成器产生的CAMs可视化结果而第二行中可视化的CAMs则来自训练后的模型。转移的CAMs具体数值并不重要。为了证明CAMs在CAT中扮演的角色是提供关于输入图像中类别判别性区域空间位置的提示我们对转移的CAMs值进行了二值化处理将其转换为0和1并以它们的平均值作为阈值。CAM中数值高于阈值的区域被视为被高亮代表着输入图像的类别判别性区域。因此我们将这些区域的值设为1以确保它们在二值化后仍保持激活状态。数值低于阈值的其他区域被视为未被高亮其值被设为0。如图6所示尽管在二值化过程中丢失了CAMs的具体数值但二值化后的CAMs仍然包含了关于类别判别性区域空间位置的提示。需要注意的是阈值也可以通过其他方式如中位数指定。图6. 第一行展示了对应于预测分数前三的类别的CAMs可视化结果第二行则展示了它们经过二值化处理后的可视化效果。如表3结果所示尽管通过我们这种粗略的二值化方法获得的类别判别性区域并不精确但所得模型的准确率下降不足1%这证明了CAMs为CAT所包含的关键信息是类别判别性区域的空间位置而非其具体数值。这有力地证明了我们的方法是基于注意力转移的。表3. 二值化CAMs迁移的实验结果。所迁移的CAMs由ResNet32×4生成。4.3. CAT-KD 评估与先前工作[2, 23, 33]保持一致我们将CAT-KD的性能与几种代表性的知识蒸馏方法进行了比较。此外我们从可迁移性和效率两个方面进一步评估了我们的方法。CIFAR-100 上的结果。表5报告了在CIFAR-100上教师网络与学生网络具有不同架构时的结果。表6展示了教师网络与学生网络具有相同架构类型时的结果。值得注意的是我们的方法大幅优于另一种基于注意力的方法AT[29]提升幅度为1.07% ∼ 12.78%。此外与需要额外网络和多层信息的基于特征的蒸馏方法[2]相比CAT-KD取得了相当甚至更优的性能。同时与CAT的结论一致CAT-KD的性能受教师网络准确率的影响由准确率较低的教师网络产生的CAMs包含更多关于输入图像类别判别性区域的不正确提示。为验证这一点我们进一步评估了教师网络准确率对我们方法的影响。如表4所示结果当教师网络较弱时CAT-KD的效果相对较差。因此正如表6中观察到的当教师网络较弱时CAT-KD的性能并非最佳。表4. 与两种最先进方法的比较。学生网络为ShuffleNetV1。∆表示CAT-KD与ReviewKD和DKD中表现最佳的方法已用下划线标出之间的性能差距。表5. CIFAR-100数据集上的实验结果。教师网络与学生网络具有不同架构。↑表示CAT-KD与AT方法相比的性能提升幅度。表6. CIFAR-100数据集上的实验结果。教师网络与学生网络具有相同架构。↑表示CAT-KD与AT方法相比的性能提升幅度。ImageNet 上的结果。表7和表8报告了在ImageNet上图像分类的Top-1和Top-5准确率。尽管在此设置下CAT-KD的性能受到教师网络较弱一方的制约但我们的方法仍优于大多数知识蒸馏方法。表7. ImageNet数据集上的实验结果。在本组实验中我们设置ResNet34为教师网络ResNet18为学生网络。性能次优的方法已用下划线标出。表8. ImageNet数据集上的实验结果。在本组实验中我们设置ResNet50为教师网络MobileNet为学生网络。性能次优的方法已用下划线标出。可迁移性。我们通过比较特征表示的可迁移性实验来评估不同方法所迁移知识的泛化能力。我们使用ShuffleNetV1和MobileNetV2作为冻结的特征提取器这些提取器要么在CIFAR-100[13]上从头训练要么通过不同的知识蒸馏方法从ResNet32×4和ResNet50中蒸馏得到。然后在STL-10[4]和Tiny-ImageNet[5]数据集上进行线性探测任务以量化其可迁移性。如表9报告的结果所示CAT-KD大幅优于其他方法表明我们方法所迁移的知识具有出色的泛化能力。表9. 从CIFAR-100习得的表征向STL-10STL和Tiny-ImageNetTI迁移的性能对比。效率。我们首先在CIFAR-100上比较了多种知识蒸馏方法的性能其中训练集数据量按不同比例缩减以评估它们对训练数据量的依赖程度。如图7左所示结果CAT-KD受训练数据量减少的影响最小证明了我们方法具有出色的蒸馏效率。此外我们进一步比较了多种知识蒸馏方法的训练成本和性能。如图7右所示结果CAT-KD具有最高的训练效率。由于CAT-KD不需要额外的参数其计算成本与基于logits的方法几乎相同。相对而言基于特征的方法需要更多的计算资源因为它们大多需要额外的辅助网络来提炼特征。图7. 本实验设置ResNet32×4为教师网络ShuffleNetV1为学生网络。左图使用不同方法在CIFAR-100上训练的学生网络准确率其中训练集数据量按不同比例缩减。右图在CIFAR-100上的准确率与训练时间每轮对比。5. 结论本文中我们提出了兼具高可解释性与强大性能的CAT-KD方法。更重要的是我们证明了识别输入图像中类别判别性区域的能力可以通过迁移类激活图来获得和增强。此外我们阐述了迁移类激活图的若干有趣特性这些特性有助于更好地理解卷积神经网络。我们希望我们的发现将有助于未来关于CNN可解释性和知识蒸馏的研究。