亲爱的技术爱好者们,大家好!我是你们的老朋友 qmwneb946。

在人工智能,特别是自然语言处理 (NLP) 的浩瀚星辰中,我们不断追求让机器不仅能“听懂”人类语言,更能“理解”其深层含义。然而,这种理解的最高境界,往往并非复杂算法或海量数据所能完全企及——它藏在一个看似简单却又异常难以捉摸的概念里:常识 (Common Sense)

想象一下,你对一个朋友说:“我把书放在了包里,它很重。” 你朋友立刻明白,“它”指的是“书”,而不是“包”。如果我说:“我把包放在了书上,它很重。” 你的朋友也能迅速判断,“它”更可能指的是“包”。这种不假思索的、基于日常经验和世界知识的判断,就是常识推理。对于人类来说,这是我们认知系统的基石,是理解世界、做出决策、甚至进行幽默和讽刺的基础。但对于机器而言,这却是一道长期存在的、极其严峻的鸿沟。

今天,我将带大家深入探索自然语言处理中的常识推理这一迷人而充满挑战的领域。我们将一同审视这一难题的本质,追溯从早期符号主义尝试到如今大语言模型时代的技术演进,剖析主流的基准任务与模型方法,并展望未来的无限可能。准备好了吗?让我们一起踏上这场充满智慧与挑战的旅程!

第一章:常识推理的本质与挑战

什么是常识?

在深入探讨机器如何获得常识之前,我们首先需要明确“常识”究竟是什么。常识并非一套严格的、形式化的逻辑规则,而是一种关于世界如何运作的广泛的、非形式化的、通常是隐含的知识体系。它包括:

  1. 物理常识 (Physical Common Sense):关于物体、空间、时间、因果关系等物理世界的知识。例如:水往低处流;固体不能穿过固体;火能烧毁纸张。
  2. 社会常识 (Social Common Sense):关于人类行为、意图、情感、社会规范、伦理道德等社会层面的知识。例如:去医院是因为生病;排队是为了公平;送礼物表示友好。
  3. 语言常识 (Linguistic Common Sense):关于语言使用习惯、词语多义性、指代消解、隐含意义等语言层面的知识。例如:在“他拿起笔写字”中,“笔”是写字的工具;“感冒了就多喝热水”中的“热水”是安慰和建议。
  4. 心理常识 (Psychological Common Sense):关于人的信念、欲望、意图、计划等心智状态的知识。例如:一个人哭泣是因为悲伤或疼痛;一个人的行为有其动机。

常识的这些特征决定了它的复杂性:

  • 隐含性 (Implicit):它通常不被明确表达,而是存在于我们的潜意识中,通过经验积累。
  • 海量性 (Vast):常识知识的数量是无限的,无法通过简单的枚举来穷尽。
  • 动态性 (Dynamic):常识会随着时间和文化背景的变化而演进。
  • 不确定性 (Uncertain):常识并非总是绝对真理,它常常是基于概率或一般性规则的推断。

为什么机器难以掌握常识?

机器,尤其是传统的基于规则或统计模型的机器,在处理常识方面面临着巨大的挑战。

  1. 知识获取的瓶颈:人类通过一生与世界的互动来学习常识。这包括感知、行动、社会互动等。机器缺乏这种具身性 (embodiment) 和真实世界的互动经验。试图人工编码所有常识是不可行的“AI完成度问题” (AI-completeness problem),因为其规模过于庞大。
  2. 符号接地问题 (Symbol Grounding Problem):符号主义AI面临的核心问题之一。机器可以操作符号(例如“杯子”),但它们不理解这些符号在现实世界中对应的含义和属性(例如“杯子”可以用来喝水,通常是玻璃或陶瓷做的,如果掉在地上会碎)。它们没有与“杯子”相关的感官、物理和功能经验。
  3. 情境依赖性 (Context Dependency):常识推理往往高度依赖于特定的语境和情境。同一个词或概念在不同情境下可能有不同的含义或推论。例如,“打破”在“打破花瓶”和“打破记录”中含义截然不同。
  4. 开放世界挑战 (Open-World Problem):现实世界是开放的,机器在面对未曾见过的、新颖的情境时,需要能够灵活地运用常识进行推理,而不是简单地匹配预设的模式。
  5. 推理的复杂性:常识推理常常是非单调的 (non-monotonic),即新的信息可能会推翻先前的结论。例如,我们通常认为鸟会飞,但如果得知这是一只企鹅或一只受伤的鸟,我们的结论就会改变。这种灵活的、可撤销的推理是机器难以模拟的。

常识在NLP中的重要性

尽管困难重重,常识推理却是实现真正通用人工智能 (AGI) 的关键一环,对NLP领域更是至关重要:

  1. 提高自然语言理解 (NLU) 的深度:没有常识,机器对语言的理解只能停留在表面,无法捕捉深层语义、隐含意图和言外之意。例如,情感分析、讽刺检测、指代消解等任务都严重依赖常识。
  2. 增强自然语言生成 (NLG) 的合理性:一个有常识的生成模型可以生成更连贯、更符合逻辑、更贴近人类表达习惯的文本。避免生成荒谬、矛盾或不合常理的内容。例如,聊天机器人、故事生成、摘要生成等。
  3. 实现更高级的推理任务:问答系统、知识图谱补全、事件预测、计划生成等需要对世界有深刻理解的任务,都离不开常识推理的支持。
  4. 提高AI系统的鲁棒性和可信度:具备常识的AI系统在面对不确定或歧义信息时,能做出更合理、更符合预期的判断,从而提升其在现实世界应用中的可靠性。

可以说,常识是赋予机器“智慧”的灵魂。它让机器从一个冰冷的计算器,逐渐向一个能够理解并适应复杂世界的智能体迈进。

第二章:早期符号主义方法与知识库构建

在深度学习浪潮席卷全球之前,人工智能领域的主流范式是符号主义 (Symbolic AI)。符号主义认为智能的核心是基于符号表示和逻辑推理。在常识推理领域,早期的研究者们主要致力于通过人工编码或半自动构建大规模的常识知识库,并设计相应的推理机制。

符号主义的理论基础

符号主义的核心思想是将世界知识表示为离散的符号(如概念、属性、关系),并利用逻辑规则(如谓词逻辑、产生式规则)对这些符号进行操作,以实现推理。

  • 知识表示 (Knowledge Representation):通过语义网络 (Semantic Networks)、框架 (Frames)、逻辑公式 (Logical Formulas) 等形式来表示常识知识。例如,“鸟”是一个概念,“有翅膀”是鸟的一个属性,“会飞”是鸟的一个行为。
  • 推理机制 (Inference Mechanisms):利用归纳、演绎、溯因等逻辑推理方法,从已知知识中推导出新知识。例如,如果“所有鸟都会飞”且“麻雀是鸟”,那么可以演绎出“麻雀会飞”。

人工构建的常识知识库

这些知识库是早期常识推理研究的基石,它们旨在捕获人类的常识知识。

Cyc

Cyc 项目由道格拉斯·莱纳特 (Douglas Lenat) 于1984年启动,是人工智能领域最宏大、最具野心的项目之一。其目标是构建一个庞大的、通用的人类常识知识库,通过数百万条人工编码的断言 (assertions) 和规则来表示常识。

  • 特点:Cyc 使用一种名为 CycL 的一阶逻辑变体作为知识表示语言。它包含实体、概念、关系、规则、情境 (contexts) 等,旨在捕获日常生活中最基本的概念和事实。例如,“当一个人在下雨天外出时,通常会打伞”这样的规则。
  • 挑战:Cyc 项目耗时极长,投入巨大,但其知识获取的“瓶颈”问题始终难以解决。人工编码知识效率低下,且难以覆盖常识的无限多样性。此外,它的推理过程是基于逻辑的,在处理不确定性、非单调性和模糊性常识时存在局限。

WordNet

WordNet 是一个大型的英语词汇数据库,由普林斯顿大学的认知科学实验室创建。它并非专门为常识推理设计,但其结构中包含了丰富的词汇语义关系,间接反映了部分常识。

  • 特点:WordNet 将名词、动词、形容词和副词组织成同义词集 (synsets),每个同义词集代表一个基本概念。这些同义词集之间通过词汇关系连接,如:
    • 上位词/下位词 (Hypernymy/Hyponymy):is-a 关系,例如“狗”是“哺乳动物”的下位词。
    • 部分/整体 (Meronymy/Holonymy):part-of 关系,例如“轮子”是“汽车”的一部分。
    • 反义词 (Antonymy):例如“热”与“冷”。
  • 应用:WordNet 在信息检索、词义消歧、文本分类等NLP任务中发挥了重要作用。通过遍历WordNet的层级结构,可以进行一定程度的常识推理,例如判断两个概念的相似性或包含关系。
  • 局限性:WordNet 主要关注词汇语义,缺乏对实体、事件和复杂因果关系的常识知识。它的结构是静态的,难以捕获动态的或情境依赖的常识。

ConceptNet

ConceptNet 是一个自由开放的语义网络,旨在捕获日常常识知识。它融合了来自各种来源(如众包、词典、特定领域知识库)的数据,并以图的形式表示知识。

  • 特点:ConceptNet 使用边来表示概念之间的关系,节点表示概念。这些关系包括:
    • IsA:是A kind of B,例如“(猫) IsA (动物)”。
    • CapableOf:能够做什么,例如“(刀) CapableOf (切割)”。
    • UsedFor:用于做什么,例如“(椅子) UsedFor (坐)”。
    • HasProperty:有什么属性,例如“(冰) HasProperty (冷)”。
    • AtLocation:在哪里,例如“(鱼) AtLocation (水)”。
  • 构建方式:ConceptNet 的数据主要来源于众包项目(如 Games With A Purpose 的 Verbosity 游戏),以及其他结构化资源。
  • 优势:相较于Cyc,ConceptNet 的构建成本更低,更新更灵活。其图结构更易于与图神经网络 (GNNs) 等现代模型结合。
  • 局限性:尽管比Cyc更灵活,但其知识的粒度、覆盖范围和一致性仍有待提高。众包数据可能包含噪音和不准确的信息。

Freebase / Wikidata

Freebase (现已归并到 Google 的 Knowledge Graph 中) 和 Wikidata 是大规模的通用知识图谱,虽然它们主要存储事实性知识(例如,“埃菲尔铁塔位于巴黎”,“某某是某某的导演”),但这些事实性知识构成了理解世界的基础,间接为常识推理提供了支持。它们以 (实体,关系,实体) 的三元组形式表示知识。

基于规则和逻辑的推理系统

在拥有了知识库之后,研究者们也开发了各种基于规则和逻辑的推理系统来利用这些知识进行常识推理。

  • 产生式系统 (Production Systems):由一组“如果-那么”规则组成,例如“如果 (天气下雨) 那么 (带伞)”。
  • 描述逻辑 (Description Logics):用于表示概念和角色(关系)的逻辑形式,支持分类、推理实例等。
  • 常识推理引擎:利用这些逻辑形式进行形式化推理,如判断一致性、推导隐含关系等。

符号方法的局限性

尽管符号主义方法在AI早期取得了重要进展,但在常识推理方面,它们面临着根本性的局限:

  1. 知识获取瓶颈:这是最核心的问题。无论人工编码还是半自动抽取,都难以穷尽并维护海量、动态的常识知识。
  2. 符号接地问题:如前所述,符号本身没有内在含义,它们与现实世界的联系薄弱。
  3. 脆弱性 (Brittleness):基于规则的系统在面对未曾预见的、边缘的情况时,往往表现出极度的脆弱性,无法泛化。
  4. 不确定性与模糊性:常识并非都是确定性的,常常包含不确定和模糊的成分。符号逻辑在处理这些方面表现不佳。
  5. 缺乏学习能力:传统的符号系统缺乏从经验中学习和改进的能力,需要人工不断调整和维护。

这些局限性促使AI研究者们转向了数据驱动、学习范式的新方法,尤其是深度学习的崛起,为常识推理带来了新的曙光。

第三章:数据驱动的深度学习范式

进入21世纪,特别是2010年以后,随着计算能力的提升、大数据集的涌现以及新算法(如深度神经网络)的突破,人工智能领域的研究范式发生了根本性转变:从传统的符号主义转向了数据驱动的深度学习。在NLP领域,这一转变尤为显著。

从特征工程到端到端学习

在深度学习之前,NLP模型通常依赖于人工设计的特征(如词性标注、句法分析树、N-gram等)和浅层机器学习模型(如支持向量机、条件随机场)。这种方法费时费力,且难以捕获语言的深层语义。

深度学习则实现了端到端 (End-to-End) 的学习:直接从原始文本数据中学习特征表示和任务映射,大大简化了开发流程,并显著提升了模型性能。

预训练语言模型(PLMs)的崛起

2018年,随着BERT、GPT等预训练语言模型 (Pre-trained Language Models, PLMs) 的横空出世,NLP领域迎来了“预训练+微调” (Pre-train & Fine-tune) 的新范式。

  • BERT (Bidirectional Encoder Representations from Transformers):由Google提出,采用 Transformer 编码器架构。通过两个任务进行预训练:

    1. 掩码语言模型 (Masked Language Model, MLM):随机遮蔽输入序列中的一部分词,然后预测这些被遮蔽的词。这使得模型能够学习上下文相关的双向语言表示。例如,在“我爱 [MASK] 国”中,模型需要根据上下文预测“中”。
    2. 下一句预测 (Next Sentence Prediction, NSP):判断两个句子是否在原始文本中是连续的。这有助于模型理解句子之间的关系。
      通过这两个任务,BERT 在海量无标注文本数据上进行了预训练,学习了丰富的语言知识。
  • GPT (Generative Pre-trained Transformer) 系列:由OpenAI提出,采用 Transformer 解码器架构。

    1. 自回归生成 (Auto-regressive Generation):模型根据前文预测下一个词,这种单向的预测方式使其特别适合生成任务。
    2. 早期的GPT模型(如GPT-1、GPT-2)展示了强大的文本生成能力。随着模型规模的不断扩大,特别是GPT-3、GPT-4,其在零样本 (Zero-shot) 和少样本 (Few-shot) 学习上的能力令人惊叹。

核心思想:通过大规模语料库学习“世界知识”
PLMs 的成功在于它们在天文数字般的文本数据(如Common Crawl、Wikipedia、BooksCorpus等)上进行预训练。这些语料库包含了人类社会积累的海量知识和语言使用模式。PLMs 通过优化预训练任务的目标函数,被迫“内化”了这些知识,包括:

  1. 句法结构:学习了不同语言的语法规则和句子结构。
  2. 语义信息:学习了词语的含义、词与词之间的关系(同义、反义、上下位等)。
  3. 事实性知识:通过反复出现的事实陈述,模型能够记住大量事实性信息。
  4. 隐式常识:这是最关键的一点。PLMs 并没有被明确地告知“水往低处流”或“猫有四条腿”,但它们通过分析海量文本中关于“水”、“猫”的描述、行为和相互关系,逐渐构建起这些概念的表征,并在一定程度上学习了与之相关的常识。当模型看到“猫”这个词时,其内部表征会激活与“毛茸茸”、“喵喵叫”、“喜欢抓老鼠”等相关的信息。

表征学习中的隐含常识
PLMs 生成的词嵌入 (Word Embeddings) 和上下文嵌入 (Contextual Embeddings) 本身就蕴含了丰富的语义和常识信息。例如:

vec(king)vec(man)+vec(woman)vec(queen)\text{vec}(\text{king}) - \text{vec}(\text{man}) + \text{vec}(\text{woman}) \approx \text{vec}(\text{queen})

这个著名的例子表明,模型能够学习到词汇之间复杂的语义关系,这种关系可以被视为一种基本常识的数学化表示。更进一步,上下文嵌入能够根据语境调整词的含义,例如在“银行的河岸”和“银行的存钱处”中,“银行”的嵌入会有显著差异。这种对多义词的理解也是常识的一部分。

通过微调提升常识推理能力
尽管PLMs在预训练阶段内化了大量知识,但为了在特定常识推理任务上表现出色,通常还需要进行下游任务的微调。通过在专门设计的常识推理数据集上进行监督学习,模型能够进一步提升其在该任务上的性能。这种“预训练+微调”的范式,极大地推动了NLP在常识推理方面的进展。

然而,我们必须清醒地认识到,PLMs 所学习到的常识,更多的是一种统计关联模式匹配,而非真正意义上的因果理解或世界模型。它们善于模仿人类的语言行为,但其深层理解能力仍然是一个开放的科学问题。这引出了我们下一章的内容:如何量化和评估这些模型所具备的常识能力?

第四章:常识推理的基准数据集与任务

为了评估机器在常识推理方面的能力,研究者们设计了一系列富有挑战性的基准数据集和任务。这些任务迫使模型不仅要理解语言,更要结合外部世界知识和推理能力才能给出正确答案。

Winograd Schema Challenge (WSC)

Winograd Schema Challenge (WSC) 是由 Hector Levesque 在2011年提出的一项旨在超越图灵测试的常识推理挑战。它是一个二选一的指代消解任务,其特点是只需改变一个词,就能改变代词的指代对象,而这种改变依赖于常识。

  • 背景与挑战

    • 例1:The city councilmen refused the demonstrators a permit because they advocated violence. (市议员拒绝给示威者许可,因为他们主张暴力。)
      • 这里“they”很明显指代“demonstrators”(示威者),因为示威者更可能主张暴力。
    • 例2:The city councilmen refused the demonstrators a permit because they feared violence. (市议员拒绝给示威者许可,因为他们害怕暴力。)
      • 这里“they”很明显指代“city councilmen”(市议员),因为议员更可能害怕暴力并因此拒绝许可。
        WSC 的巧妙之处在于,表面上看只是简单的指代消解,但其正确答案的判断,需要模型具备关于社会行为、意图、原因等方面的常识。传统的NLP系统(如基于句法解析的指代消解)很难正确处理这些例子。
  • WinoGrande

    • WSC 的数据集规模很小,为了解决模型可能通过“作弊”记住答案而非真正推理的问题,Ali Emami 等人在2020年发布了 WinoGrande 数据集。WinoGrande 包含了4.4万个 Winograd Schema 风格的问题,规模更大,并通过对抗性过滤机制来确保模型不能仅仅通过统计偏差来解决问题,从而更准确地评估其常识推理能力。

CommonsenseQA (CSQA)

CommonsenseQA (CSQA) 是2019年由 Alon Talmor 等人提出的一个多项选择式的常识问答数据集。它要求模型回答关于实体之间常识关系的问题。

  • 特点

    • 问题和答案都来源于 ConceptNet 知识图谱,但问题本身并非简单的知识查询,而是需要进行多跳推理或隐含常识判断。
    • :“为了去海边,你会需要什么?”
      • 选项:A) 防晒霜,B) 咖啡,C) 滑雪板,D) 字典
      • 正确答案:A) 防晒霜。这需要模型知道海边与阳光、防晒霜的关系。
    • 数据集的设计旨在挑战模型整合语言理解和常识知识的能力。
  • 与知识图谱的结合:CSQA 的问题通常可以追溯到 ConceptNet 中的路径。例如,回答“哪里能找到一台洗衣机?”需要知道“洗衣机”通常在“洗衣房”或“厨房”,而这些地点常在“家里”。

HellaSwag

HellaSwag 是由 Rowee Zhang 等人在2019年推出的一个用于评估常识推理的任务,其独特之处在于它关注的是连贯性推理合理行动序列的预测

  • 特点
    • 数据集中的每个样本都是一个视频剪辑的开始部分(或文本描述),模型需要从多个选项中选择最合理的下一个事件或动作序列。
    • :Given a context, choose the most likely ending:
      • Context: “一个小女孩在厨房里打碎了一个玻璃杯。”
      • Options: A) 她开始清理碎片。 B) 她去学校。 C) 她把玻璃杯放回橱柜。 D) 她开始演奏小提琴。
      • 正确答案:A) 她开始清理碎片。这需要模型理解事件的因果关系和常见的行为序列。
    • HellaSwag 的难点在于,其错误选项通常也看起来合理,但相较于正确选项,它们在常识上显得不那么连贯或可能性较低。数据集的构建利用了 Adversarial Filtering (对抗性过滤) 和 human-in-the-loop 的方法,以确保问题的挑战性。

PIQA (Physical Interaction Question Answering)

PIQA 是由 Jonathan Bras 等人在2020年提出的,专注于物理常识推理。

  • 特点
    • 数据集包含有关日常物理世界中物体和动作的常识问题,通常涉及“如何做某事”以及“为什么这样做”的问题。
    • 每个问题都有两个候选答案,模型需要选择更合理、更安全、更高效或更符合物理定律的方案。
    • :“如何把木头劈开?”
      • 选项1:用斧子砍。
      • 选项2:用手掰。
      • 正确答案:选项1。这需要模型知道斧子的功能和木头的物理特性。
    • PIQA 强调对物理世界基本属性和因果关系的理解。

Social IQa (Social Interaction Question Answering)

Social IQa 是由 Maarten Sap 等人在2019年提出的,专注于社会常识推理。

  • 特点
    • 数据集中的问题围绕人类互动、情感、意图和社交规范。
    • 模型需要理解人们在特定社交情境下的动机、感受和行为。
    • :“Alice 拒绝了 Bob 的邀请。”
      • 动机:A) 她很忙。 B) 她很喜欢 Bob。 C) 她想让他开心。
      • 感受:A) 尴尬。 B) 兴奋。 C) 感激。
      • 正确答案通常是 A) 她很忙 (动机) 和 A) 尴尬 (感受),这取决于具体的语境。
    • 这项任务旨在推动模型超越简单的文本理解,进入对人类心理和社交行为的深层理解。

其他相关任务

除了上述典型任务,还有许多其他任务也间接或直接地评估模型的常识推理能力:

  • 故事补全 (Story Completion):给定故事前文,预测合理的结尾或下一句话。
  • 事件预测 (Event Prediction):给定一系列事件,预测下一个可能发生的事件。
  • 因果推理 (Causal Reasoning):判断事件之间的因果关系。
  • 蕴含识别 (Recognizing Textual Entailment, RTE):判断一个句子是否蕴含另一个句子的含义。

这些基准数据集和任务的出现,为常识推理的研究提供了明确的方向和可量化的评估标准。它们促使研究者们开发出更强大的模型,能够更好地捕捉和利用隐含在海量数据中的常识知识。

第五章:面向常识推理的模型架构与技术

随着深度学习,特别是预训练语言模型 (PLMs) 的兴起,常识推理领域涌现出许多新颖的模型架构和技术。这些方法旨在更好地利用PLMs的强大表示能力,并结合其他知识源或机制来提升常识推理表现。

基于知识图谱的神经网络(KG-GNNs)

尽管PLMs通过海量文本学习了隐含常识,但它们仍然难以完全掌握结构化的、明确的知识。知识图谱 (Knowledge Graphs, KGs) 提供了这种结构化知识。将KGs与神经网络结合,成为了一种强大的常识推理方法。

  • 核心思想:将知识图谱中的实体和关系嵌入 (embedding) 到低维向量空间中,然后利用图神经网络 (Graph Neural Networks, GNNs) 在图结构上进行信息传播和聚合,从而捕获实体之间的复杂关系和推理路径。

  • 知识图谱嵌入 (Knowledge Graph Embeddings)

    • TransE (Translating Embeddings for Knowledge Graph Embedding):一种经典的KG嵌入模型,它假设如果 (h,r,t)(h, r, t) 是一个事实三元组(头实体、关系、尾实体),那么在嵌入空间中,h+rth + r \approx t。即关系 rr 可以被视为从头实体 hh 到尾实体 tt 的翻译向量。
    • 其他模型如 TransH, TransR, RotatE, ComplEx 等,旨在解决不同类型的关系复杂性。
  • 图神经网络 (Graph Neural Networks, GNNs)

    • GNNs 能够直接在图结构上进行学习,通过在节点及其邻居之间传递和聚合信息来更新节点的表示。
    • 图卷积网络 (Graph Convolutional Networks, GCNs):通过聚合邻居节点的特征来更新中心节点的表示。在常识推理中,可以用来在知识图谱上进行多跳推理。

      H(l+1)=σ(D~12A~D~12H(l)W(l))H^{(l+1)} = \sigma(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})

      其中 A~\tilde{A} 是带有自连接的邻接矩阵,D~\tilde{D} 是其度矩阵,H(l)H^{(l)} 是第 ll 层的节点特征矩阵,W(l)W^{(l)} 是权重矩阵,σ\sigma 是激活函数。
    • 图注意力网络 (Graph Attention Networks, GATs):引入了注意力机制,允许模型为不同邻居分配不同的权重,从而更灵活地聚合信息。
    • 应用:KG-GNNs 可以用于在常识问答中寻找知识图谱中的推理路径,或增强PLMs的知识表示。例如,在 CommonsenseQA 任务中,模型可以利用 ConceptNet 的图结构来寻找连接问题实体和答案实体的路径。

多模态常识推理

人类的常识不仅仅来源于文本,更来源于对现实世界多模态信息(视觉、听觉、触觉等)的感知和互动。因此,将多模态信息引入常识推理,是提升机器理解能力的重要方向。

  • 结合图像与文本
    • 例如,HellaSwag 任务虽然是文本形式,但其数据来源是视频字幕,隐含着丰富的视觉常识。
    • 研究者们正在开发能够同时处理图像和文本输入的模型,例如 Visual Question Answering (VQA) 和 Captioning 任务,这些任务往往也需要常识来解决视觉歧义或进行合理推断。
    • 多模态PLMs(如 CLIP, DALL-E, Flamingo 等)能够学习跨模态的统一表示,这为多模态常识推理提供了新的路径。

对抗性训练与数据增强

为了提高模型的鲁棒性和泛化能力,使其不仅仅记住训练数据中的模式,还能应对更复杂、更具挑战性的常识推理问题,研究者们采用了对抗性训练和数据增强技术。

  • 对抗性训练 (Adversarial Training)

    • 生成对抗样本 (Adversarial Examples),即对输入进行微小但精心设计的扰动,使模型给出错误预测。然后将这些对抗样本加入训练集,使模型学习如何抵御这些扰动,从而提高其鲁棒性。
    • 在常识推理中,可以生成难以区分的负样本,迫使模型更深入地理解常识,而非仅仅依赖表面特征。
  • 数据增强 (Data Augmentation)

    • 通过对现有数据进行变换(如同义词替换、句子重构、噪声注入等)来生成新的训练样本,从而扩大数据集规模并提高模型的泛化能力。
    • 在常识推理任务中,可以基于现有的常识知识或规则来生成新的、具有挑战性的问答对。

解释性与可信赖AI

随着模型复杂度的提升,理解其决策过程变得越来越困难。在常识推理这种需要“理解”的任务中,模型的解释性 (Explainability) 和可信赖性 (Trustworthiness) 变得尤为重要。

  • 可解释性AI (XAI)

    • 注意力机制的可视化:分析 Transformer 模型中的注意力权重,可以发现模型在做出决策时关注了输入序列的哪些部分。
    • 梯度分析:通过分析输入对输出的影响(如 LIME, SHAP 等方法),可以识别模型决策中最关键的输入特征。
    • 生成解释:一些模型可以不仅给出答案,还能生成解释其推理过程的文本。
    • 挑战:尽管有这些方法,但对于深度模型而言,提供真正符合人类认知逻辑的解释仍然是一个难题。模型的“黑箱”特性使得我们很难确定它是否真的掌握了常识,还是仅仅通过高维统计关联“蒙对”了答案。
  • 可信赖AI

    • 确保模型在不同情境下都能稳定、可靠地进行常识推理,避免产生“幻觉”或不合理的答案。
    • 对模型的常识边界进行探索,明确其在哪些领域表现良好,哪些领域仍有欠缺。

这些技术的发展,使得我们能够构建更强大、更鲁棒的常识推理系统。然而,要真正让机器拥有人类般的常识,仍然面临巨大的挑战。这正引出了当前研究的前沿:大语言模型(LLMs)如何改变常识推理的格局。

第六章:大语言模型(LLMs)的常识能力与未来展望

毫无疑问,近年来大语言模型(LLMs)的爆发式发展,彻底改变了NLP的版图,也为常识推理领域带来了前所未有的机遇与挑战。

LLMs的常识“涌现”能力

以GPT-3、PaLM、Llama 等为代表的LLMs,其参数量动辄千亿甚至万亿,在海量无标注数据上进行超大规模预训练。令人惊讶的是,这些模型在没有显式常识知识注入的情况下,展现出了一定程度的常识“涌现”能力 (Emergent Abilities)。

  • 上下文学习 (In-context Learning):LLMs 能够通过少量示例(通常在提示中给出)来学习新的任务,而无需参数更新。在常识推理任务中,这意味着模型可以通过在提示中提供几个常识问答对,然后对新问题进行推理。
  • 指令遵循 (Instruction Following):经过指令微调 (Instruction Tuning) 的LLMs,能够理解并遵循人类的自然语言指令,执行各种复杂的任务,包括常识推理。例如,你可以直接问它:“如果我把手机掉进了马桶里,我应该怎么做?” LLM 通常能给出非常合理的常识性建议。
  • 多模态融合 (Multimodal Fusion):最新的多模态LLMs(如 GPT-4V, Gemini)进一步扩展了这种能力,它们不仅能处理文本,还能理解图像和视频内容,从而进行更全面的常识推理。例如,给它一张图片,问“这个人下一步可能会做什么?”,它能结合视觉信息和常识给出答案。

LLMs 的这种能力可以归因于:

  1. 规模效应:极大的模型规模和训练数据量,使得模型能够捕获到数据中极其复杂和微妙的统计模式,这些模式在一定程度上反映了现实世界的运作规律和常识。
  2. Transformer 架构:Transformer 的自注意力机制使其能够捕捉长距离依赖,并有效地整合全局信息。
  3. 多任务预训练的隐含效益:虽然LLMs的预训练目标是简单的语言建模(预测下一个词),但为了达到这一目标,模型需要隐含地学习世界的知识、句法、语义,甚至因果关系,这其中就包含了常识。

LLMs的局限性与“幻觉”问题

尽管LLMs表现出惊人的常识能力,但它们并非完美无缺,仍存在显著的局限性:

  1. “幻觉” (Hallucination):LLMs 可能会生成听起来合理但实际上是错误或虚构的信息。这表明它们可能只是在模仿语言模式,而非真正理解其背后的事实或常识。例如,它可能会自信地告诉你“鱼是哺乳动物”,或者给出不合逻辑的行动建议。
  2. 缺乏真正的世界模型:LLMs 本质上是概率分布模型,它们基于文本的统计关联进行预测。它们没有具身的经验,没有内在的世界模型,无法像人类那样进行物理模拟或因果推断。它们能说出“苹果从树上掉下来”,但可能不真正理解重力。
  3. 推理的浅层性:尽管可以进行多步推理,但LLMs的推理往往是基于文本模式匹配的启发式,而非严谨的逻辑推导。在面对需要深层因果链或逻辑一致性的复杂问题时,它们可能出现错误。
  4. 数据偏见与有害内容:训练数据中的偏见和错误信息也会被LLMs习得,导致它们在常识推理中产生歧视性或有害的输出。
  5. 不确定性表达不足:LLMs 往往缺乏对自身知识边界的感知,对于不确定或模棱两可的问题,它们倾向于生成一个看似合理的答案,而不是承认其不确定性。

提示工程 (Prompt Engineering) 在常识推理中的应用

提示工程已成为与LLMs交互的关键技术。通过精心设计的提示,我们可以引导LLMs更好地利用其内部的常识知识。

  • 少样本学习 (Few-shot Learning):在提示中提供少量输入-输出示例,让模型学习任务模式。
    • 例如:
      1
      2
      3
      4
      5
      问:我把钥匙锁在车里了,怎么办?
      答:你应该尝试联系开锁匠或使用备用钥匙。

      问:我正在做饭,发现食谱上说需要盐,但是我没有盐。我应该怎么办?
      答:你可以尝试使用酱油、海带或盐焗花生等替代品,或者问邻居借一点。
  • 思维链提示 (Chain-of-Thought Prompting):通过在提示中展示逐步推理的过程,引导模型进行更复杂的推理。
    • 例如:
      1
      2
      3
      4
      5
      6
      7
      8
      问:如果我要把一个非常大的衣柜搬到楼上,我应该考虑什么?
      推理步骤:
      1. 考虑衣柜的大小和重量,以及楼梯的宽度和弯曲程度。
      2. 确保有足够的人手来搬运,并考虑使用搬运工具,如滑轮或搬运带。
      3. 检查门框和楼梯拐角是否能通过。
      4. 提前清理搬运路线上的障碍物。
      5. 考虑在地面和楼梯上铺设保护垫,防止刮伤或损坏。
      答:你需要考虑衣柜的尺寸和重量、楼梯的宽度和形状、所需的人手和工具、以及潜在的路径障碍和保护措施。

这种方法显著提升了LLMs在复杂常识推理任务上的表现。

混合方法:符号与神经的融合

鉴于符号主义和深度学习各自的优缺点,将两者结合的混合方法 (Hybrid Approaches) 被认为是未来常识推理的重要方向。

  1. 知识注入 (Knowledge Injection)

    • 将结构化的知识图谱(如 ConceptNet)信息注入到PLMs中,例如通过修改预训练目标、在模型架构中引入知识编码层,或在微调阶段利用知识图谱进行正则化。
    • 目标是让PLMs 不仅学习文本中的隐含知识,还能直接利用明确编码的常识。
  2. 知识蒸馏 (Knowledge Distillation)

    • 将一个“教师”模型(可能是基于知识图谱或传统推理系统)的知识,通过软目标或硬目标的形式,转移给一个“学生”的深度学习模型。
  3. 神经符号系统 (Neuro-Symbolic Systems)

    • 这是融合两种范式的更深层次尝试。模型可能包含一个神经网络部分,用于处理感知、模式识别和模糊匹配;同时包含一个符号推理部分,用于进行逻辑推理、规划和解释。
    • 例如,神经网络识别出图像中的物体,然后将这些符号化的物体传递给一个逻辑推理引擎,由其利用常识规则进行进一步推理。
    • 这种方法旨在结合神经网络的强大表征学习能力和符号系统的透明性、可控性及严谨性。

常识推理的未来方向

常识推理依然是AI领域最根本、最长期的挑战之一。未来研究可能关注以下几个方面:

  1. 更深层次的理解与推理:超越模式匹配,让机器能够真正理解因果关系、意图、计划和物理世界的基本原理。这可能需要模型构建更接近人类认知的“世界模型”。
  2. 动态常识学习:让AI系统能够从不断变化的现实世界中持续学习新的常识,并适应新的情境。这涉及到无监督、自监督或弱监督学习范式的进一步发展。
  3. 个性化与情境化常识:常识并非完全普适,它有时也依赖于个体经验、文化背景和特定情境。未来的系统可能需要根据用户或特定场景,灵活地运用和调整常识。
  4. 具身智能与常识:让机器人或其他具身AI系统通过与物理世界的真实互动来学习常识,而非仅仅通过文本数据。这是实现真正通用常识理解的终极路径。
  5. 可解释性与可信度:在模型能力提升的同时,确保其常识推理过程是透明的、可解释的,并且在关键任务中是可靠和安全的。

结论

在自然语言处理的广阔天地中,常识推理无疑是一座难以逾越但又必须征服的高峰。从早期的符号主义尝试,研究者们付出了巨大努力构建庞大而严谨的知识库,却最终受限于知识获取的瓶颈和符号接地的难题。

随着深度学习,特别是预训练语言模型(PLMs)的崛起,我们见证了机器在从海量文本数据中“学习”隐含常识方面的惊人进展。BERT、GPT等模型以其强大的语言建模能力,在Winograd Schema Challenge、CommonsenseQA等一系列基准任务上取得了突破性成就,使得机器对语言的理解进入了一个前所未有的深度。最新的大语言模型(LLMs)更是展现出了令人震撼的常识“涌现”能力,它们能够通过上下文学习和指令遵循,在许多常识任务上表现出超越以往的水平。

然而,我们也必须清醒地认识到,LLMs所展现的常识能力,更多是基于统计关联和模式匹配,而非真正的人类般的世界模型或因果理解。它们的“幻觉”问题、推理的浅层性以及对数据偏见的继承,都提醒着我们,距离实现真正具有人类常识的AI,仍有漫长的道路要走。

未来的研究将很可能聚焦于混合方法,即如何有机地融合符号主义的严谨逻辑和深度学习的强大表示能力。同时,探索具身智能、动态学习、多模态融合以及提升模型的可解释性和可信赖性,也将是常识推理领域持续进化的关键方向。

常识,这个人类与生俱来的能力,正成为人工智能研究中最迷人也最具挑战的谜题。我们相信,随着技术的不断演进和跨学科的深入合作,机器终将能够更好地理解我们所共享的这个世界,并真正成为具备智慧的智能伙伴。

感谢大家的阅读,我是 qmwneb946,期待与您在AI的未来旅程中再次相遇!