2.2.1.3.10 一致性推理悖论(CRP)

《On the consistent reasoning paradox of intelligence and optimal trust in AI:The power of ‘I don’t know’》

一致性推理悖论(Consistent Reasoning Paradox):任何试图模仿人类智能并进行一致性推理的AI都会不可避免地出现错误/产生幻觉(生成错误但看似合理的答案)。这些错误不仅仅是偶然的,而是在某些问题上会无限次发生。CRP的提出促使我们重新思考AI系统在模仿人类智能时的局限性,并探索如何构建更可信赖的AI系统。

CRP的核心观点:
1、一致性推理与错误的不可避免性:CRP指出,任何试图进行一致性推理的AI都会不可避免地出现错误。这些错误在某些问题上会无限次发生,而检测这些错误比解决原问题更难。这意味着,AI在模仿人类智能时,必须面对这种内在的局限性。
2、可信赖AI的设计原则:为了构建可信赖的AI,系统必须能够在无法确定答案时说“I don’t know”。这需要AI隐式计算一个新的概念,即“I don’t know”函数,这是目前现代AI所缺乏的。通过引入这一功能,AI可以避免生成错误答案,从而提高其可信赖性。
3、人工通用智能(AGI)的行为特点:CRP还揭示了AGI的行为特点。AGI不能“几乎确定”自己是正确的,要么100%确定,要么完全不确定。此外,AGI可能会给出正确答案,但无法总是提供正确的逻辑解释。这一发现对AGI的设计和应用具有重要的指导意义。
4、图灵测试与一致性推理的关系:为了通过图灵测试并被认为是真正的AGI,AI系统必须具备一致性推理能力。然而,这种能力也带来了人类般的易错性。CRP表明,通过图灵测试的AI系统在处理等价问题时,仍然会面临一致性推理带来的挑战。
5、数学与递归理论的结合:论文结合了递归理论和随机算法的新技术,解决了证明CRP的关键问题,建立了数学分析、递归理论和可证明性理论的新连接。这一创新不仅丰富了理论研究的工具箱,也为实际应用提供了新的思路。

https://arxiv.org/pdf/2408.02357

https://mp.weixin.qq.com/s/Yllya5LbdVyI3ofHNmBIIQ

一个有关“2.2.1.3.10 一致性推理悖论(CRP)”的想法

  1. 《思维链CoT再遭质疑!三大证据实锤,真正可泛化推理还很远?》
    https://mp.weixin.qq.com/s/Q_hGlkCHzrcn7n5RiNPqfA?poc_token=HCVpsWijV-O31SjY_an0kn9GMvn7FE2kgCH7sT2L
    思维链(Chain-of-Thought, CoT) 推理实为脆弱的幻象,一旦超出训练分布范围便会失效。换句话说,CoT 推理的有效性并非源于模型的逻辑推演能力,而是对训练数据模式的记忆与插值,其本质是高度结构化的模式匹配,而非真正可泛化的逻辑推理。
    https://arxiv.org/abs/2508.01191
    《Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens》

    《思维链推理并不总是可靠》
    https://mp.weixin.qq.com/s/zaq9KB643SxGtlOTk9hfrQ
    当模型面对提示中明显的偏见时,CoT推理并不总是可信的,即思维链可能错误地呈现模型得出结论的真实过程。我们进一步发现,即使在没有人为偏见的真实提示中,也会出现不可信的CoT现象。由于模型对“是”或“否”存在隐性偏好,因此我们将这种不可信现象称为隐式事后合理化(Implicit Post-Hoc Rationalization)。没有一个模型是完全可信的:Gemini 2.5 Flash(2.17%)、ChatGPT-4o(0.49%)、DeepSeek R1(0.37%)、Gemini 2.5 Pro(0.14%),以及具备思考功能的Sonnet 3.7(0.04%)。我们还研究了另一种现象——不可信的非逻辑捷径(Unfaithful Illogical Shortcuts),即模型在尝试解决困难数学问题时,使用微妙的非逻辑推理方式,使推测性的答案看似经过严谨证明。
    https://arxiv.org/pdf/2503.08679
    《Chain-of-Thought Reasoning In The Wild Is Not Always Faithful》

  2. 《Thinking Machines:大模型输出随机的根本原因及终结方案》
    https://mp.weixin.qq.com/s/BRH0U2X_rrkY1WhrHSPP2w
    《击败LLM推理中的非确定性(Defeating Nondeterminism in LLM Inference)》
    https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
    LLM有个共同的毛病就是同一个问题,再次询问时可能给出不同的回答,没有可复现性。Thinking Machines Lab发现几乎所有 LLM 推理端点之所以非确定性,主要原因在于负载(并因此导致批次大小)的非确定性变化。困扰我们的随机性,并非源于计算核心的瑕疵,而是源于系统在应对动态负载时架构上的妥协。你的每一次请求,其结果都在被其他成千上万个并发请求无形地塑造着,纯粹是数学上的问题。“从推理服务器的角度,它是确定的;但从用户的角度,它是非确定的。” 这就像生活里那些看似公平的规则,当环境变量一变,体验到的却是另一回事。AI并没有撒谎,只是我们忽略了系统背后复杂的运行逻辑。文章给出了系统性的解法:让核心算子实现批次不变性,从RMSNorm到矩阵乘法,再到注意力机制,逐步重塑内核的确定性。

  3. 《GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了》
    https://mp.weixin.qq.com/s/bD_C7DJLRnaGfr9UxUplPg
    《语言模型为何会产生幻觉》(Why Language Models Hallucinate)
    https://arxiv.org/abs/2509.04664
    “幻觉”是一种在LLM统计学习本质下必然会产生的、可预测的副产品。生成可靠信息比判断是否可靠更难,而判断是否可靠本身必然会有失败的地方。
    – 在预训练阶段产生幻觉是不可避免的:只要训练数据中不可避免地存在长尾、稀疏和充满噪声的部分,模型在判断层面就必然会失败。而模型在判断上犯的每一个错误,都会被放大并传导至生成任务中。因此生成中的幻觉也是不可避免的。
    – 后训练未能有效地抑制幻觉:评分机制带来了一个严重问题:它会系统性地惩罚不确定性。当模型面对一个它没有把握的问题时,如果它选择诚实地回答“我不知道”(IDK)或拒绝回答,其得分将是0分。这和直接给出一个错误的“最佳猜测”答案分数完全相同。在这种规则下,放弃回答是一种“蠢”策略,而毫无根据的“虚张声势”,反而成了追求更高分数的理性选择。只要这种“惩罚诚实、奖励猜测”的评估范式不变,幻觉问题就将继续成为阻碍AI系统迈向更高可靠性的顽固障碍。如果一个强化学习(RL)过程本身也采用了二元的奖励路径,那么它极有可能导致模型抑制幻觉的能力降低。
    在GPT-5中极有可能引入了Universal Verifier的技术,来超越原来的可验证的对错二元评价标准。比如目前比较热门的Rubric(评分细则)的方法。它会让另一个“验证模型”依据一套复杂的、非二元的标准(如事实性、逻辑性、细微差别)进行打分。这将从根本上瓦解二元激励给强化学习过程带来的负面影响。当然,这一切可能还远不够。论文最后,研究者提议最好的解决幻觉的方法是在后训练阶段引入带惩罚的评分机制。该机制会在指令中明确告知模型过度自信会有巨大代价(例如,答对得1分,答错得-1,过度自信答错扣9分,不答得0分),迫使模型从一个单纯的“得分优化器”转变为一个“风险评估器”。它必须精确地校准自身的置信度,只有当确信度足够高时才敢于回答。

回复 admin 取消回复

您的电子邮箱地址不会被公开。