零样本学习：跨越未知疆界的智能之光

发表于2025-07-22|更新于2025-07-26|数学

|浏览量:

大家好，我是你们的老朋友 qmwneb946，一个对技术和数学充满热情的博主。今天，我们将深入探讨一个令人兴奋且极具挑战性的机器学习前沿领域——零样本学习（Zero-Shot Learning, ZSL）。想象一下，一个孩子从未见过“长颈鹿”，但通过你的描述（“很高”、“脖子很长”、“身上有斑点”），当他第一次看到长颈鹿的照片时，竟然能准确地认出来。这听起来像是科幻，但零样本学习正是努力让机器具备这种超越经验的智能。

引言：为什么我们需要零样本学习？

在传统机器学习范式中，我们训练模型识别的类别必须在训练数据中出现过。这就像一个学生，只有学习过“猫”的照片，才能识别“猫”。这种模式在许多应用中工作得很好，比如人脸识别、垃圾邮件检测等。然而，世界是无限的，新概念、新类别层出不穷。我们不可能为每一个新出现的物体、物种或概念都收集大量的标注数据来训练模型。

想象一下：

稀有物种识别：很多物种极其罕见，根本没有足够的数据。
新产品上市：一款全新的手机型号发布，如何让AI立刻识别它？
医疗影像诊断：罕见疾病的样本极少，甚至没有。

这些场景揭示了传统机器学习的局限性：它们是“数据饥渴型”的，并且不具备泛化到完全未知类别的能力。

零样本学习（ZSL）应运而生，旨在解决这一根本性挑战。它的核心思想是：利用已知类别与未知类别之间的“桥梁”——语义信息，让模型能够识别从未见过的数据类别。这就像我们通过文字描述、属性特征来理解和识别新事物一样。

本文将从理论基础、核心方法、挑战与展望等多个维度，对零样本学习进行一次深度剖析，希望能帮助大家拨开云雾，领略其独特的魅力。

零样本学习的理论基石

核心思想与基本设定

零样本学习的核心在于“知识迁移”。它不再仅仅依赖于视觉特征与类别的直接映射，而是引入了一个关键的中间层：语义空间（Semantic Space）。

让我们形式化地定义一下：

已知类别（Seen Classes, $Y_S$ ）：在训练阶段有标注样本的类别集合。
未知类别（Unseen Classes, $Y_U$ ）：在测试阶段出现，但在训练阶段从未出现过标注样本的类别集合。注意， $Y_S \cap Y_U = \emptyset$ 。
视觉特征空间（Visual Feature Space, $X$ ）：从图像（或其他数据）中提取的特征表示。例如，通过CNN得到的特征向量。
语义特征空间（Semantic Feature Space, $S$ ）：描述类别语义信息的空间。这是ZSL的“魔法”所在。语义特征可以是：
- 属性（Attributes）：人工标注的、描述类别特点的属性向量。例如，对于“鸟”这个类别，属性可以是“有翅膀”、“会飞”、“有羽毛”。
- 词向量（Word Embeddings）：预训练的词向量（如Word2Vec, GloVe, BERT等），将类别名称映射到高维连续向量空间。例如，“猫”和“狗”的词向量在语义空间中距离较近，而“猫”和“汽车”的词向量距离较远。
- 文本描述（Text Descriptions）：更复杂的，如一段关于某个类别的文字描述。
- 知识图谱（Knowledge Graphs）：通过图结构连接类别，表示它们之间的关系。

零样本学习的目标：给定一个未知类别的样本 $x_u \in X$ ，在没有任何该类别训练样本的情况下，预测其正确的类别 $y_u \in Y_U$ 。这通常通过学习一个映射函数来实现，该函数能够将视觉特征 $x$ 投影到语义空间 $S$ ，或将语义信息反向投影到视觉空间，或者将两者共同投影到一个公共的嵌入空间。

问题公式化

在零样本学习中，我们训练一个模型 $M$ 在已知类别 $Y_S$ 上，利用它们的视觉特征 $X_S$ 和对应的语义特征 $S_S$ 。在测试阶段，模型需要对来自未知类别 $Y_U$ 的样本 $X_U$ 进行分类，而这些样本及其类别在训练时是完全不可见的。

一个典型的ZSL学习框架包括以下步骤：

特征提取：从图像中提取视觉特征 $f(x)$ 。
语义信息获取：为所有已知和未知类别获取其对应的语义特征 $g(y)$ 。
模型训练：训练一个模型 $F$ ，学习视觉特征空间 $X$ 到语义特征空间 $S$ 的映射，或者学习一个联合嵌入空间，使得相似的视觉和语义特征相互靠近。

在测试时，给定一个未知图像 $x_{test}$ ，我们首先提取其视觉特征 $f(x_{test})$ ，然后将其映射到语义空间。最后，通过计算这个映射结果与所有未知类别语义特征的相似度，选择最相似的类别作为预测结果。

例如，最常见的分类判别公式是：

$y^* = \arg\max_{y \in Y_U} Sim(F(f(x_{test})), g(y))$

其中， $Sim(\cdot, \cdot)$ 是相似度函数（如余弦相似度）， $F(\cdot)$ 是从视觉特征到语义特征的映射函数。

ZSL与传统监督学习、迁移学习的区别

传统监督学习：训练集和测试集的类别分布相同，且测试集中的所有类别都包含在训练集中。
迁移学习：通常是在源域（Source Domain）上学习知识，并将其迁移到目标域（Target Domain）。目标域可能数据量较少，但其类别通常与源域类别有重叠，或者目标域类别是源域类别的一个子集。迁移学习通常仍需要目标域的少量标注数据（如微调）。
零样本学习：核心区别在于测试集中的类别在训练集中是完全不存在的，且不提供任何来自这些未知类别的标注样本。它更像是一种“极端”的迁移学习，将知识从已知类别域迁移到完全未知的类别域。

零样本学习的核心方法

零样本学习方法种类繁多，但大致可以归为几大类：基于嵌入/投影的方法、基于生成的方法、基于图神经网络的方法等。

投影（嵌入）方法

这是最早也是最直观的零样本学习方法。其核心思想是学习一个映射函数，将视觉特征投影到语义空间，或者将语义特征投影到视觉空间，或者将两者投影到同一个公共嵌入空间。

1. 视觉到语义的映射

这种方法学习一个映射函数 $F: X \to S$ ，将图像的视觉特征 $x$ 映射到语义空间 $S$ 。在语义空间中，每个类别都有一个预定义的语义向量 $s_y$ 。在测试时，计算映射后的视觉特征 $F(x)$ 与所有未知类别语义向量的相似度，选择最接近的作为预测类别。

$F(x) \approx s_y$

模型示例：

线性映射：最简单的情况是使用一个线性变换矩阵 $W$ ，使得 $s_y = Wx$ 。
目标函数通常是最小化映射误差：

$L = \sum_{(x, y) \in D_S} ||W \cdot f(x) - g(y)||^2$

其中 $D_S$ 是已知类别训练集， $f(x)$ 是图像 $x$ 的视觉特征， $g(y)$ 是类别 $y$ 的语义特征。
非线性映射：使用神经网络（如多层感知机MLP）作为映射函数 $F$ 。这允许模型学习更复杂的非线性关系。

常用的损失函数：
除了简单的均方误差，还可以使用其他更强大的损失函数来优化映射：

结构化合页损失（Structured Hinge Loss）：鼓励正确类别在语义空间中更接近映射后的视觉特征，而错误类别则远离。

$L(x, y; \theta) = \max_{y' \ne y} (\Delta(y, y') + Sim(F(x), g(y')) - Sim(F(x), g(y)))$

其中 $\Delta(y, y')$ 是一个衡量类别 $y$ 和 $y'$ 之间差异的函数（例如，可以设置为1）， $Sim$ 是相似度函数。
三元组损失（Triplet Loss）：选择一个锚点（anchor）、一个正样本（positive）和一个负样本（negative），最小化锚点与正样本的距离，同时最大化锚点与负样本的距离。在ZSL中，这可以表示为：

$L(x_a, y_p, y_n) = \max(0, Sim(F(x_a), g(y_n)) - Sim(F(x_a), g(y_p)) + \alpha)$

其中 $x_a$ 是图像 $x$ 的视觉特征， $y_p$ 是其对应的正确语义， $y_n$ 是一个不匹配的语义， $\alpha$ 是一个边距（margin）。

代码示例（伪代码，线性映射）：

# 假设我们有已知类别的视觉特征 Xs 和对应的语义特征 Ss
# Xs: (num_samples, visual_dim)
# Ss: (num_samples, semantic_dim)

import torch
import torch.nn as nn
import torch.optim as optim

class LinearProjection(nn.Module):
    def __init__(self, visual_dim, semantic_dim):
        super(LinearProjection, self).__init__()
        # 定义一个线性层，将视觉维度映射到语义维度
        self.projection_layer = nn.Linear(visual_dim, semantic_dim)

    def forward(self, x):
        return self.projection_layer(x)

# 假设数据
visual_dim = 2048 # 例如，ResNet输出的特征维度
semantic_dim = 300 # 例如，GloVe词向量维度
num_seen_classes = 100
num_samples_per_class = 20

# 模拟训练数据 (已知类别)
# 随机生成视觉特征
Xs_train = torch.randn(num_seen_classes * num_samples_per_class, visual_dim)
# 随机生成对应的语义特征 (每个类别一个唯一的语义向量)
Ss_train_labels = torch.cat([torch.randn(1, semantic_dim) for _ in range(num_seen_classes)], dim=0)
Ss_train = torch.cat([Ss_train_labels[i].unsqueeze(0).repeat(num_samples_per_class, 1) for i in range(num_seen_classes)], dim=0)


# 模拟测试数据 (未知类别)
num_unseen_classes = 50
num_test_samples_per_class = 10
Xs_test = torch.randn(num_unseen_classes * num_test_samples_per_class, visual_dim)
Ss_unseen_labels = torch.cat([torch.randn(1, semantic_dim) for _ in range(num_unseen_classes)], dim=0)
# 通常测试时我们只有Ss_unseen_labels，没有对应图像的标签，而是要预测

# 实例化模型、损失函数和优化器
model = LinearProjection(visual_dim, semantic_dim)
criterion = nn.MSELoss() # 均方误差损失
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 训练循环
num_epochs = 50
for epoch in range(num_epochs):
    optimizer.zero_grad()
    # 前向传播：将视觉特征映射到语义空间
    semantic_pred = model(Xs_train)
    # 计算损失：预测的语义特征与真实的语义特征之间的差异
    loss = criterion(semantic_pred, Ss_train)
    loss.backward()
    optimizer.step()
    if (epoch+1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

print("训练完成！")

# 测试阶段 (零样本预测)
# 假设我们得到了一个未知类别的图像特征 x_test_single
# 并拥有所有未知类别的语义原型 unseen_semantic_prototypes (Ss_unseen_labels)

# 随机选择一个测试图像特征
x_test_single = Xs_test[0].unsqueeze(0) # 模拟一个测试样本

# 映射到语义空间
with torch.no_grad(): # 测试时不需要计算梯度
    mapped_feature = model(x_test_single)

# 计算与所有未知类别语义原型的相似度 (这里使用余弦相似度)
# 注意：这里需要确保向量是单位向量或者进行归一化
mapped_feature_norm = torch.nn.functional.normalize(mapped_feature, p=2, dim=1)
unseen_semantic_prototypes_norm = torch.nn.functional.normalize(Ss_unseen_labels, p=2, dim=1)

similarities = torch.matmul(mapped_feature_norm, unseen_semantic_prototypes_norm.T)

# 找到相似度最高的未知类别
predicted_class_idx = torch.argmax(similarities, dim=1).item()
print(f"预测的未知类别索引: {predicted_class_idx}")
# 真实的类别通常在评估时才揭示，这里只是演示流程

2. 语义到视觉的映射

与上述相反，这种方法学习一个映射函数 $G: S \to X$ ，将语义特征投影到视觉空间。这意味着我们尝试为未知类别生成“伪视觉特征”，然后使用这些伪特征来训练一个传统的分类器。

$G(s_y) \approx x$

这通常不如视觉到语义的映射流行，因为从低维语义信息生成高维、复杂的视觉特征更具挑战性。但它为生成方法奠定了基础。

3. 联合嵌入空间

这种方法旨在将视觉特征和语义特征都投影到一个共同的低维嵌入空间 $Z$ 。在这个空间中，如果视觉特征 $x$ 属于类别 $y$ ，那么其投影 $F(x)$ 应该与类别 $y$ 的语义特征投影 $G(s_y)$ 尽可能接近。

$F(x) \approx G(s_y)$

这种方法的优势在于它能更好地捕捉视觉和语义信息之间的内在联系，且避免了单向映射可能带来的信息损失。许多方法会引入多模态（multi-modal）学习框架来实现这一点。

优点：

概念简单，易于实现。
计算效率相对较高。

缺点：

域偏移问题（Domain Shift）：模型在已知类别上学习的映射可能无法很好地泛化到未知类别。已知类别的视觉特征分布与未知类别可能差异很大。
“Hubness”问题：在测试阶段，某些样本的映射特征可能与语义空间中多个类别（尤其是那些密度较高的区域）的语义特征都非常接近，导致错误的预测。这在语义空间维度较高时尤为突出。

生成方法

基于生成的方法是近年来零样本学习领域的一个重要进展，它有效地解决了域偏移和Hubness等问题。其核心思想是：通过已知类别的语义信息，生成未知类别的伪视觉特征。一旦生成了这些伪特征，零样本学习问题就“转换”成了一个传统的监督学习问题，因为我们现在有了未知类别的“训练数据”。

1. 基于生成对抗网络（GAN）的方法

生成对抗网络（GAN）因其强大的数据生成能力而被广泛应用于ZSL。
基本思想：训练一个生成器 $G$ ，它以类别语义特征（例如词向量）和随机噪声作为输入，输出对应的视觉特征。判别器 $D$ 负责区分真实视觉特征和生成器产生的伪视觉特征。

$G(noise, s_y) \to \tilde{x}_y$

训练过程：

生成器 $G$ ：尝试生成看起来真实的、且与输入语义特征匹配的视觉特征。
判别器 $D$ ：尝试区分真实图像特征和 $G$ 生成的伪图像特征。同时，很多GAN-ZSL模型还会引入一个辅助分类器 $C$ ，让 $D$ 不仅判断真伪，还要判断生成的特征是否属于正确的类别。

流程：

在已知类别上训练一个GAN，使其能够根据类别语义生成相应的视觉特征。
利用训练好的生成器，输入未知类别的语义特征（例如未知动物的词向量），生成大量该未知类别的伪视觉特征。
用这些生成的伪特征和真实的已知类别特征，训练一个传统的分类器（如SVM或softmax分类器）。
在测试时，这个分类器就能直接对未知类别的图像进行分类。

代表性模型：f-GAN、CADA-VAE、GAN-ZSL等。

损失函数示例（简化版）：

对抗损失：
$L_D = - \mathbb{E}_{x \sim P_{data}(x)}[\log D(x)] - \mathbb{E}_{s \sim P_{data}(s), z \sim P_z(z)}[\log (1 - D(G(z,s)))]$

$L_G = - \mathbb{E}_{s \sim P_{data}(s), z \sim P_z(z)}[\log D(G(z,s))]$
重构损失/语义一致性损失：确保生成的视觉特征与输入语义特征匹配，或能够被映射回正确的语义。例如：
$L_{semantic} = ||\phi(G(z,s)) - s||^2$
其中 $\phi$ 是一个将视觉特征映射回语义空间的函数。

2. 基于变分自编码器（VAE）的方法

与GAN类似，VAE也可以用于生成伪视觉特征。VAE通过学习数据潜在空间的概率分布来实现生成。

基本思想：训练一个编码器，将视觉特征编码为潜在空间的均值和方差；一个解码器，从潜在空间采样并结合语义特征，生成视觉特征。

$Encoder(x) \to (\mu, \Sigma)$

$Decoder(z \sim N(\mu, \Sigma), s_y) \to \tilde{x}_y$

流程：

在已知类别上训练VAE，使其能够根据语义信息生成视觉特征。
利用训练好的VAE的解码器，结合未知类别的语义特征，生成大量伪视觉特征。
与GAN类似，使用这些伪特征训练一个分类器。

代表性模型：CADA-VAE、VAE-ZSL等。

优点：

缓解域偏移：通过生成伪特征，将ZSL问题转化为一个标准的有监督学习问题，使得训练和测试数据分布更接近。
解决Hubness问题：直接生成特征，而不是在语义空间中进行相似度比较，减少了Hubness效应。
更接近人类学习：人类也能通过想象和联想来“创造”对新事物的认知。

缺点：

生成质量：生成的伪特征质量直接影响分类性能，高质量的生成是挑战。
计算成本：GAN和VAE的训练通常比较复杂且计算资源消耗大。
模式坍塌：GAN可能出现模式坍塌问题，即生成器只生成有限几种模式的样本。

图神经网络（GNN）方法

图神经网络（GNN）在处理具有图结构的数据时表现出色。在零样本学习中，类别之间的关系（例如通过WordNet或知识图谱定义的层次结构、共同属性等）可以自然地表示为图。GNN可以利用这些图结构来传播和聚合类别信息，从而帮助识别未知类别。

核心思想：将类别表示为图的节点，类别之间的关系表示为边。类别属性或词向量可以作为节点的特征。GNN通过在图上传播信息，学习鲁棒的类别表示，这些表示能够更好地捕获类别间的语义联系，包括已知和未知类别。

流程：

构建类别图：节点代表类别（已知和未知），边代表类别间的关系（如WordNet中的“is-a”关系、共现关系等）。节点的特征可以是其语义向量（词向量或属性）。
训练GNN：利用图上的节点特征和边信息，训练一个GNN模型。GNN可以学习如何将相邻节点的信息聚合起来，生成更具判别力的类别表示。
预测：在测试阶段，将待识别图像的视觉特征与GNN学习到的类别表示进行匹配（例如，通过一个学习到的映射函数将视觉特征映射到GNN输出的类别嵌入空间），找到最相似的未知类别。

代表性模型：GCN-ZSL、APN（Attribute Propagation Network）等。

优点：

利用类别关系：有效地利用了类别之间的结构化语义信息，这是其他方法难以做到的。
泛化性强：通过在图上传播信息，GNN可以更好地将已知类别的知识泛化到未知类别。
缓解域偏移：类别之间的语义关系在一定程度上弥补了视觉特征域的差异。

缺点：

图构建：构建高质量的类别图本身是一个挑战，尤其是在缺乏预定义知识图谱的领域。
可解释性：GNN模型的可解释性相对较差。
计算复杂性：处理大型类别图可能需要较高的计算资源。

其他方法

除了上述主流方法，还有一些零样本学习的变种和混合方法：

度量学习（Metric Learning）：学习一个度量空间，使得同一类别的样本距离接近，不同类别的样本距离远离。
多模态融合（Multi-Modal Fusion）：结合多种模态的信息（如视觉、文本、音频）来增强ZSL性能。
稀疏编码（Sparse Coding）：利用稀疏表示来桥接视觉和语义空间。
基于注意力机制（Attention Mechanisms）：让模型关注图像中与语义信息最相关的区域。

零样本学习的挑战与进阶

零样本学习并非完美，它面临着一系列严峻的挑战，这些挑战也催生了更多高级的研究方向。

1. 广义零样本学习（Generalized Zero-Shot Learning, GZSL）

在前面介绍的ZSL设定中，测试集中的样本只包含未知类别。然而，在实际应用中，测试时模型可能会遇到已知类别的样本，也可能遇到未知类别的样本。这种更贴近现实的设定被称为广义零样本学习（Generalized Zero-Shot Learning, GZSL）。

$y^* = \arg\max_{y \in Y_S \cup Y_U} Sim(F(f(x_{test})), g(y))$

挑战：

类别不平衡：模型在已知类别上进行训练，因此会对已知类别产生分类偏差（bias）。在测试时，它倾向于将未知类别的样本错误地分类到与它们语义相似的已知类别。
性能下降：与纯ZSL相比，GZSL的性能通常会显著下降，因为它需要在一个更大的、不平衡的类别空间中进行判别。

解决方案：

校准（Calibration）：引入校准因子来平衡已知类别和未知类别的预测分数，例如ASSD（Adaptive Semantic Space Discriminator）或SJE（Structured Joint Embedding）。
双向映射或共同嵌入：鼓励视觉特征和语义特征在某个空间中更好地对齐，使得已知和未知类别的样本都能被区分。
元学习（Meta-Learning）：学习一种“学习如何学习”的能力，使模型能更好地适应新类别。

在GZSL中，通常会报告已知类别准确率（ $Acc_S$ ）、未知类别准确率（ $Acc_U$ ）以及它们的调和平均数（Harmonic Mean） $H$ 。调和平均数是一个更全面的指标，因为它会惩罚那些在某一类别上表现极好而在另一类别上表现极差的模型。

$H = \frac{2 \cdot Acc_S \cdot Acc_U}{Acc_S + Acc_U}$

2. 域偏移问题（Domain Shift）

前面已经提到过，这是ZSL中的一个核心挑战。由于模型只在已知类别的视觉域上训练，学习到的映射关系可能无法很好地泛化到未知类别的视觉域。未知类别可能具有与已知类别截然不同的视觉特征分布。

解决方案：

域适应（Domain Adaptation）：尝试减小已知域和未知域之间的特征分布差异。
特征生成：如GAN和VAE方法，通过生成伪特征来弥补这种域差距。
解耦表示学习：将类别判别信息与域特定信息解耦，学习更鲁棒的通用表示。

3. Hubness问题

在将高维数据嵌入到低维空间时，某些点（Hubs）可能成为很多其他点的最近邻，即使它们实际上并不相似。在ZSL中，这可能导致一些映射后的视觉特征与语义空间中的多个类别都非常接近，使得模型难以做出准确的判断。

解决方案：

逆向映射（Reverse Mapping）：不直接在语义空间进行分类，而是将语义向量反向映射回视觉空间，然后进行分类。
去Hubness策略（De-biasing strategies）：在嵌入空间中调整距离度量，以减少Hubness效应。
生成方法：通过生成伪特征，将问题转化为标准的分类问题，避免直接在共享嵌入空间中进行近邻搜索。

4. 语义信息质量和获取

ZSL的性能高度依赖于语义信息的质量。

属性：人工标注属性成本高昂，且可能存在主观性。
词向量：预训练词向量虽然方便，但可能无法捕捉细粒度的视觉差异。例如，“斑马”和“马”的词向量可能很接近，但在视觉上差异明显。
文本描述：更丰富，但如何从中提取有效信息也是一个挑战。

未来研究将探索如何自动、高质量地获取语义信息，或者利用更丰富的多模态信息来增强语义表示。

5. 零样本学习与少样本学习（Few-Shot Learning, FSL）的结合

零样本学习是极端情况（0个样本），而少样本学习是指每个新类别只有极少量（如1-5个）标注样本。在实际场景中，我们可能能为新类别提供几个样本。将ZSL和FSL结合，实现更灵活的 Few-Shot Zero-Shot Learning (FSZSL) 或 Transductive ZSL，是当前研究的热点。这通常涉及到元学习或领域自适应等技术。

零样本学习的应用场景

零样本学习并非纸上谈兵，它在许多领域都有巨大的应用潜力：

图像识别与理解：识别新物种、新产品、罕见事件等。例如，通过已知的动物知识，识别从未见过的非洲野生动物。
机器人与自动化：让机器人识别和处理其训练数据中没有的新物体，提高其在复杂环境中的适应性。
医疗影像分析：诊断罕见疾病，这些疾病往往样本稀缺。ZSL可以帮助模型利用已知疾病的知识来识别未知疾病。
自然语言处理（NLP）：识别新实体、理解新概念、情感分析等。例如，识别从未在训练数据中出现过的行业特定术语。
推荐系统：为新用户或新商品进行推荐，即使没有历史交互数据。
安全与监控：检测从未见过的异常行为或入侵模式。

零样本学习的未来展望

零样本学习正处于快速发展阶段，未来有许多值得探索的方向：

更强大的语义表示学习：结合大规模预训练语言模型（如GPT-3、CLIP）和视觉模型，学习更丰富、更通用的多模态语义表示。例如，OpenAI的CLIP模型能够将文本和图像映射到同一嵌入空间，并展现出强大的零样本识别能力。
可解释性与鲁棒性：提高ZSL模型的可解释性，理解模型为何做出某种预测；增强模型的鲁棒性，使其在面对噪声、对抗样本或域偏移时表现更稳定。
开放世界零样本学习：在现实世界中，我们不仅要识别已知类别和未知类别，还要处理完全“未知”的、无法归类的新奇物体。开放世界识别将是ZSL的终极目标。
动态学习与持续学习：模型能够持续地学习新类别，而无需从头训练，并能保留对旧类别的识别能力（克服灾难性遗忘）。
与强化学习、具身智能结合：让智能体在与环境交互中，通过少量经验和已有知识，自主学习识别新物体和新场景。