2.2.1.6 从OPENAI董事会变动事件看AI的发展趋势

2.2.1.6.1 《人工智能本身并非危险的根源,关键在于掌控它的人》

Kenan Malik Nov 26, 2023

《AI doesn’t cause harm by itself. We should worry about the people who control it》

https://www.theguardian.com/commentisfree/2023/nov/26/artificial-intelligence-harm-worry-about-people-control-openai

为什么人类会持续研发可能威胁到人类生命的机器。但讽刺的是,尽管人们对 AI 的恐惧有些夸张,这种恐惧本身却带来了新的危险。对 AI 的过度警惕源于对其能力的高估。ChatGPT 在预测文字序列的下一个词方面表现得非常出色,以至于我们误以为它能像真人一样进行交流。然而,它并不能像人类那样真正理解这些词汇的含义,对现实世界的了解也微乎其微。我们距离实现“人工通用智能 (AGI)”的梦想还有很长的路要走。“AGI 不会在短期内出现”,IBM 软件工程首席科学家 Grady Booch 指出,即使是在我们的后代子孙的一生中也不太可能实现。

对于那些认为 AGI 即将成为现实的硅谷人士来说,他们认为应通过“对齐”来保护人类,即确保 AI 符合人类的价值观和意图。这看似是一种理性的方式,可以减轻 AI 可能带来的伤害。但当我们开始探讨“人类价值”究竟是什么、谁来定义它们,以及在价值观冲突时该如何应对时,问题就变得复杂了。

社会价值观总是众说纷纭,尤其是在当今这个社会共识标准瓦解、普遍不满情绪高涨的时代。我们与技术的关系本身就引发了热烈的讨论。对一些人来说,限制网络仇恨或保护人们免受网络伤害比维护言论自由或隐私权更为重要。这正是英国最新在线安全法案的出发点。这也是许多人对这项法律可能带来的后果感到担忧的原因。

接下来是虚假信息的问题。几乎没人会质疑虚假信息是一个日益严重的问题,它对民主和信任提出了挑战。但如何应对这一问题,依然存在很大争议。尤其是许多管理虚假信息的尝试,最终增强了科技公司监管公众的能力。

同时,算法偏见这一议题也揭示了对“价值对齐”观点的弱点。算法容易对少数群体产生偏见,原因正是它们过于贴合人类价值观。AI 程序是基于充满歧视的人类世界数据训练而成的。这些偏见也渗透到 AI 软件中,不论是在刑事司法系统、医疗保健、面部识别还是招聘等领域。

我们面临的问题并非机器将来可能对人类行使权力——这种看法基于目前的发展是无依据的猜测。真正的问题在于,我们生活在一个少数人利用权力损害多数人的社会,而技术成为了巩固这种权力的工具。对于掌握社会、政治和经济权力的人来说,将问题描绘为技术问题而非社会问题,把问题推到未来而非现在,似乎更合理。

几乎所有对人类有益的工具也可能造成伤害。但它们很少自行造成伤害,更多是因为被人类,尤其是那些掌权者,错误使用。这才是我们讨论 AI 时应当关注的起点,而非那些关于人类灭绝的虚构恐惧。

2.2.1.6.2 Q*的可能架构

Jim Fan Nov 25, 2023

/twitter.com/DrJimFan/status/1728100123862004105

Q*的可能架构(与AlphaGo的架构类比)

首先,要理解搜索与学习这两大 AI 技术的强大结合,我们得回溯到 2016 年,重新审视 AlphaGo 这一 AI 历史上的辉煌成就。它主要由四大要素构成:

  1. 策略神经网络(Policy NN,Learning):它的任务是选择好的行动,通过估计每个行动带来胜利的可能性。
  2. 价值神经网络(Value NN,Learning):这部分负责评估棋盘 状况,并预测围棋中任何合法位置的胜负。
  3. 蒙特卡洛树搜索(MCTS,Search):它代表着“Monte Carlo Tree Search”。这个过程利用策略神经网络模拟出从当前位置开始的多种可能的移动序列,然后综合这些模拟的结果来决定最有希望的行动。它是一个“慢思考”环节,与大语言模型(LLM)快速采样 Token 的方式形成对比。
  4. 真实信号:这是推动整个系统运作的动力源泉。在围棋中,这个信号非常简单,就是一个二元标签“谁获胜”,由固定的游戏规则决定。可以将其视为维持学习进程的能量源泉。

那么,这些组件是如何相互协作的呢?

AlphaGo 通过自我对弈不断进步。在这个过程中,策略神经网络和价值神经网络通过迭代不断优化:随着策略在选择动作方面变得更加高效,价值神经网络从中获取更优质的数据进行学习,并反过来为策略提供更精准的反馈。更强的策略也帮助蒙特卡洛树搜索探索出更优的策略。通过这种方式,AlphaGo 自我提升能力,形成了一个巧妙的“永动机”。仅仅模仿人类的数据,AI 是无法达到超人类水平的。

Q* 的四大组件:

  1. 策略神经网络:这将是 OpenAI 最强大的内部大语言模型(GPT),负责实际执行解决数学问题的思维过程。
  2. 价值神经网络:另一个 GPT,用于评估每个中间推理步骤的正确性概率。OpenAI 在 2023 年 5 月由 Ilya Sutskever、John Schulman和 Jan Leike发布的论文《Let’s Verify Step by Step》https://arxiv.org/abs/2305.20050提出了“过程监督奖励模型”(PRM),它对思考链中的每一步提供反馈。相比之下,“结果监督奖励模型”(ORM)只在最终对整体输出作出判断。ORM 是强化学习从人类反馈(RLHF)中原始奖励模型的表达,但它太过粗略,无法适当评估长回应的各个子部分。换言之,ORM 不适合分配信用。在强化学习文献中,我们将 ORM 称为“稀疏奖励”(仅在最终给出),而 PRM 则是“密集奖励”,能够平滑地引导大语言模型朝我们期望的行为发展。
  3. 搜索:与 AlphaGo 的离散状态和动作不同,大语言模型操作的是“所有合理字符串”的更复杂空间。因此,我们需要新的搜索方法。在思考链(CoT)的基础上,研究社区已经发展了一些非线性 CoT:
    -思考树(Tree of Thought):实际上是将 CoT 与树搜索结合起来:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》https://arxiv.org/abs/2305.10601
    – 思考图(Graph of Thought):将树变成图,就能得到一个更复杂的搜索操作符:《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》https://arxiv.org/abs/2308.09687
  4. 真实信号:有几种可能性:
    (a) 每个数学问题都伴随着一个已知答案。OpenAI 可能已经收集了大量来自现有数学考试或竞赛的语料。
    (b) ORM 本身可以作为真实信号,但这样可能会被利用,从而“失去能量”维持学习。
    (c) 形式验证系统,如 Lean 定理证明器,可以将数学问题转化为编码问题,提供编译器反馈:
    https://lean-lang.org/?continueFlag=27325f54ee7afed8c4c49f19baa03e6c就像 AlphaGo 一样,策略大语言模型和价值大语言模型可以通过迭代相互促进改进,也可以在可能的情况下从人类专家的注释中学习。更优秀的策略大语言模型将帮助思考树搜索探索出更佳策略,反过来为下一轮迭代收集更好的数据。
    Demis Hassabis曾提到 DeepMind 的 Gemini 将使用“AlphaGo 风格的算法”来加强推理能力。即便 Q* 不是我们想象中的那样,谷歌肯定会用自己的方式紧随其后。

需要指出的是,我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话 Grok(@grok)或角色扮演方面会更有创造力。提升创造力本质上是人类的事情,因此我相信自然数据仍会胜过合成数据。

2.2.1.6.3 《苦涩的教训》

Rich Sutton Mar 13, 2019
http://www.incompleteideas.net/IncIdeas/BitterLesson.html?continueFlag=27325f54ee7afed8c4c49f19baa03e6c

《The Bitter Lesson》

70 年人工智能研究给我们的最大启示是:依赖计算能力的通用方法最终表现最佳,而且优势明显。这背后的主要原因是摩尔定律,也就是计算成本持续以指数级下降。大部分 AI 研究都是在假设计算资源固定的情况下进行的(在这种情况下,利用人类知识几乎是提升性能的唯一途径),但实际上,在稍长于一般研究项目的时间里,可用的计算资源会大幅增加。研究者为了在短期内取得突破,尝试利用自己对特定领域的人类知识,但从长远看,关键在于计算能力的利用。这两者原本不必相互冲突,但在实践中却常常如此。投入其中一个领域的时间,就意味着在另一个上的缺失。此外,人们在一种方法上的投资也会形成心理承诺。而基于人类知识的方法往往会使系统变得复杂,不利于利用计算能力的通用方法。有很多例子显示 AI 研究者是如何迟迟才领悟到这个苦涩的教训,回顾这些案例非常有启发性。

以计算机国际象棋为例,1997 年击败世界冠军卡斯帕罗夫的方法主要是深度搜索。当时,大多数计算机国际象棋研究者对此表示失望,因为他们更倾向于利用对棋局特殊结构的人类理解。然而,当一个简单但基于搜索的方法,结合特殊的硬件和软件展现出巨大效能时,这些基于人类知识的研究者并不愿意接受失败。他们认为,尽管这次“蛮力”搜索获胜,但它并非一种通用策略,也不是人类下棋的方式。这些研究者本希望基于人类理解的方法能够取胜,对实际结果感到失望。

在计算机围棋的发展中,也出现了类似的模式,只是晚了 20 年。最初的努力都在于避免搜索,尽可能利用对游戏的人类理解和特殊特征,但一旦有效地应用了大规模搜索,这些努力都显得微不足道,甚至有害。在这个过程中,通过自我对弈学习价值函数(在很多其他游戏中也是这样,甚至包括国际象棋,尽管在 1997 年首次击败世界冠军的程序中学习的作用并不大)也非常关键。自我对弈学习和一般学习,就像搜索一样,能够充分利用大量计算资源。在计算机围棋和国际象棋中,研究者最初都是试图利用人类的理解来减少搜索的需要,但最终通过接受搜索和学习才取得了巨大的成功。

在语音识别领域,1970 年代由 DARPA 赞助的一场早期比赛就是一个例子。参赛者包括使用了大量人类知识(如对单词、音素、人类声道的理解)的特殊方法,而另一边则是更依赖统计和大量计算的新方法,基于隐马尔可夫模型(HMMs)。最终,基于统计的方法战胜了基于人类知识的方法。这导致了自然语言处理领域的一次重大转变,随着时间的推移,统计和计算开始成为该领域的主导。深度学习在语音识别中的兴起是这一趋势的最新体现。深度学习方法更少依赖人类知识,使用更多的计算资源,并通过在大型训练集上的学习,极大地提升了语音识别系统的性能。与游戏领域相似,研究人员总是试图创建一个按照他们自己的思维方式工作的系统,但这种尝试最终证明是逆向而行,不仅浪费了大量的研究时间,而且在大量计算资源可用并找到有效利用方法的情况下,这种尝试显得更是多余。

计算机视觉领域也经历了相似的发展模式。早期的方法试图通过搜索边缘、广义圆柱体或 SIFT 特征来处理视觉问题。但在今天,这些方法都被淘汰了。现代的深度学习神经网络仅使用卷积和某些类型的不变性概念,取得了更好的表现。

这是一个重要的教训。作为一个领域,我们还没有完全吸取这一教训,仍在重蹈覆辙。为了识别并避免这种错误,我们必须理解其吸引力所在。我们必须领悟到,试图构建一个基于我们认为自己思考方式的系统是行不通的。苦涩的教训源于这样的历史观察:
1) 人工智能研究者经常试图将知识融入他们的代理中;
2) 这在短期内总是有益的,也让研究者感到满足;但
3) 从长远来看,这种做法会导致进步停滞,甚至阻碍进一步的发展;
4) 真正的突破性进展最终是通过一个相反的方法实现的,这个方法基于通过搜索和学习来扩大计算的规模。这种成功带有苦涩,往往消化不良,因为它是在人类中心化方法之上取得的。

从这个苦涩的教训中,我们应该明白通用方法的巨大力量,即那些随着计算能力的增长而持续扩展的方法。在这方面,似乎可以无限扩展的两种方法是搜索和学习

苦涩教训中的另一个关键点是,人类心灵的实质内容极其复杂,不可能简化;我们应该放弃试图简单化地理解心灵内容,如空间、物体、多重代理或对称性等概念。这些都是外部世界中任意而复杂的部分,不应该成为我们构建的核心;相反,我们应该构建的是那些能够发现并捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似,但寻找这些近似的过程应该由我们的方法来完成,而不是我们亲自动手。我们希望 AI 代理能像我们一样具有发现能力,而不是仅仅包含我们已有的发现。将我们的发现直接构建进去,只会使我们更难看清如何实现发现的过程。

发表回复

您的电子邮箱地址不会被公开。