1.2.3.4 涌现、层次与信息系统

《An Informational Approach to Emergence》
涌现的信息论方法:跨层级涌现与演化的信息存储方式
https://link.springer.com/article/10.1007/s10699-022-09883-9
https://mp.weixin.qq.com/s/xwn1Ak5QeA6W7Lb_8eL1wQ

涌现(emergence)可描述为不同组织层次实体之间的关系,包括空间(不可还原性)和时间(进化论)维度,在物质、生命、认知和文化等主要层次间的转变。每一个主要层次都依赖于较低层次,不仅是其构成要素,而且是以某种更形式的方式。所有这些演化转变(evolutionary transition)都与某种形式记忆的出现有关,包括遗传记忆、神经记忆或语言记忆,这意味着它们具有信息性质。本文提出一种信息系统的一般模型,可理解为是从有限库存中提取的模块组合。有些信息系统是“语义”模型,即再现环境特征。这其中一部分也是“知情的”(informed),即具有从记忆子系统中衍生出来的模式。可以列出知情系统(informed systems)的层次和组成部分,为知识组织提供一个总体框架。

2.2.1.6 从OPENAI董事会变动事件看AI的发展趋势

2.2.1.6.1 《人工智能本身并非危险的根源,关键在于掌控它的人》

Kenan Malik Nov 26, 2023

《AI doesn’t cause harm by itself. We should worry about the people who control it》

https://www.theguardian.com/commentisfree/2023/nov/26/artificial-intelligence-harm-worry-about-people-control-openai

为什么人类会持续研发可能威胁到人类生命的机器。但讽刺的是,尽管人们对 AI 的恐惧有些夸张,这种恐惧本身却带来了新的危险。对 AI 的过度警惕源于对其能力的高估。ChatGPT 在预测文字序列的下一个词方面表现得非常出色,以至于我们误以为它能像真人一样进行交流。然而,它并不能像人类那样真正理解这些词汇的含义,对现实世界的了解也微乎其微。我们距离实现“人工通用智能 (AGI)”的梦想还有很长的路要走。“AGI 不会在短期内出现”,IBM 软件工程首席科学家 Grady Booch 指出,即使是在我们的后代子孙的一生中也不太可能实现。

对于那些认为 AGI 即将成为现实的硅谷人士来说,他们认为应通过“对齐”来保护人类,即确保 AI 符合人类的价值观和意图。这看似是一种理性的方式,可以减轻 AI 可能带来的伤害。但当我们开始探讨“人类价值”究竟是什么、谁来定义它们,以及在价值观冲突时该如何应对时,问题就变得复杂了。

社会价值观总是众说纷纭,尤其是在当今这个社会共识标准瓦解、普遍不满情绪高涨的时代。我们与技术的关系本身就引发了热烈的讨论。对一些人来说,限制网络仇恨或保护人们免受网络伤害比维护言论自由或隐私权更为重要。这正是英国最新在线安全法案的出发点。这也是许多人对这项法律可能带来的后果感到担忧的原因。

接下来是虚假信息的问题。几乎没人会质疑虚假信息是一个日益严重的问题,它对民主和信任提出了挑战。但如何应对这一问题,依然存在很大争议。尤其是许多管理虚假信息的尝试,最终增强了科技公司监管公众的能力。

同时,算法偏见这一议题也揭示了对“价值对齐”观点的弱点。算法容易对少数群体产生偏见,原因正是它们过于贴合人类价值观。AI 程序是基于充满歧视的人类世界数据训练而成的。这些偏见也渗透到 AI 软件中,不论是在刑事司法系统、医疗保健、面部识别还是招聘等领域。

我们面临的问题并非机器将来可能对人类行使权力——这种看法基于目前的发展是无依据的猜测。真正的问题在于,我们生活在一个少数人利用权力损害多数人的社会,而技术成为了巩固这种权力的工具。对于掌握社会、政治和经济权力的人来说,将问题描绘为技术问题而非社会问题,把问题推到未来而非现在,似乎更合理。

几乎所有对人类有益的工具也可能造成伤害。但它们很少自行造成伤害,更多是因为被人类,尤其是那些掌权者,错误使用。这才是我们讨论 AI 时应当关注的起点,而非那些关于人类灭绝的虚构恐惧。

2.2.1.6.2 Q*的可能架构

Jim Fan Nov 25, 2023

/twitter.com/DrJimFan/status/1728100123862004105

Q*的可能架构(与AlphaGo的架构类比)

首先,要理解搜索与学习这两大 AI 技术的强大结合,我们得回溯到 2016 年,重新审视 AlphaGo 这一 AI 历史上的辉煌成就。它主要由四大要素构成:

  1. 策略神经网络(Policy NN,Learning):它的任务是选择好的行动,通过估计每个行动带来胜利的可能性。
  2. 价值神经网络(Value NN,Learning):这部分负责评估棋盘 状况,并预测围棋中任何合法位置的胜负。
  3. 蒙特卡洛树搜索(MCTS,Search):它代表着“Monte Carlo Tree Search”。这个过程利用策略神经网络模拟出从当前位置开始的多种可能的移动序列,然后综合这些模拟的结果来决定最有希望的行动。它是一个“慢思考”环节,与大语言模型(LLM)快速采样 Token 的方式形成对比。
  4. 真实信号:这是推动整个系统运作的动力源泉。在围棋中,这个信号非常简单,就是一个二元标签“谁获胜”,由固定的游戏规则决定。可以将其视为维持学习进程的能量源泉。

那么,这些组件是如何相互协作的呢?

AlphaGo 通过自我对弈不断进步。在这个过程中,策略神经网络和价值神经网络通过迭代不断优化:随着策略在选择动作方面变得更加高效,价值神经网络从中获取更优质的数据进行学习,并反过来为策略提供更精准的反馈。更强的策略也帮助蒙特卡洛树搜索探索出更优的策略。通过这种方式,AlphaGo 自我提升能力,形成了一个巧妙的“永动机”。仅仅模仿人类的数据,AI 是无法达到超人类水平的。

Q* 的四大组件:

  1. 策略神经网络:这将是 OpenAI 最强大的内部大语言模型(GPT),负责实际执行解决数学问题的思维过程。
  2. 价值神经网络:另一个 GPT,用于评估每个中间推理步骤的正确性概率。OpenAI 在 2023 年 5 月由 Ilya Sutskever、John Schulman和 Jan Leike发布的论文《Let’s Verify Step by Step》https://arxiv.org/abs/2305.20050提出了“过程监督奖励模型”(PRM),它对思考链中的每一步提供反馈。相比之下,“结果监督奖励模型”(ORM)只在最终对整体输出作出判断。ORM 是强化学习从人类反馈(RLHF)中原始奖励模型的表达,但它太过粗略,无法适当评估长回应的各个子部分。换言之,ORM 不适合分配信用。在强化学习文献中,我们将 ORM 称为“稀疏奖励”(仅在最终给出),而 PRM 则是“密集奖励”,能够平滑地引导大语言模型朝我们期望的行为发展。
  3. 搜索:与 AlphaGo 的离散状态和动作不同,大语言模型操作的是“所有合理字符串”的更复杂空间。因此,我们需要新的搜索方法。在思考链(CoT)的基础上,研究社区已经发展了一些非线性 CoT:
    -思考树(Tree of Thought):实际上是将 CoT 与树搜索结合起来:《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》https://arxiv.org/abs/2305.10601
    – 思考图(Graph of Thought):将树变成图,就能得到一个更复杂的搜索操作符:《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》https://arxiv.org/abs/2308.09687
  4. 真实信号:有几种可能性:
    (a) 每个数学问题都伴随着一个已知答案。OpenAI 可能已经收集了大量来自现有数学考试或竞赛的语料。
    (b) ORM 本身可以作为真实信号,但这样可能会被利用,从而“失去能量”维持学习。
    (c) 形式验证系统,如 Lean 定理证明器,可以将数学问题转化为编码问题,提供编译器反馈:
    https://lean-lang.org/?continueFlag=27325f54ee7afed8c4c49f19baa03e6c就像 AlphaGo 一样,策略大语言模型和价值大语言模型可以通过迭代相互促进改进,也可以在可能的情况下从人类专家的注释中学习。更优秀的策略大语言模型将帮助思考树搜索探索出更佳策略,反过来为下一轮迭代收集更好的数据。
    Demis Hassabis曾提到 DeepMind 的 Gemini 将使用“AlphaGo 风格的算法”来加强推理能力。即便 Q* 不是我们想象中的那样,谷歌肯定会用自己的方式紧随其后。

需要指出的是,我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话 Grok(@grok)或角色扮演方面会更有创造力。提升创造力本质上是人类的事情,因此我相信自然数据仍会胜过合成数据。

2.2.1.6.3 《苦涩的教训》

Rich Sutton Mar 13, 2019
http://www.incompleteideas.net/IncIdeas/BitterLesson.html?continueFlag=27325f54ee7afed8c4c49f19baa03e6c

《The Bitter Lesson》

70 年人工智能研究给我们的最大启示是:依赖计算能力的通用方法最终表现最佳,而且优势明显。这背后的主要原因是摩尔定律,也就是计算成本持续以指数级下降。大部分 AI 研究都是在假设计算资源固定的情况下进行的(在这种情况下,利用人类知识几乎是提升性能的唯一途径),但实际上,在稍长于一般研究项目的时间里,可用的计算资源会大幅增加。研究者为了在短期内取得突破,尝试利用自己对特定领域的人类知识,但从长远看,关键在于计算能力的利用。这两者原本不必相互冲突,但在实践中却常常如此。投入其中一个领域的时间,就意味着在另一个上的缺失。此外,人们在一种方法上的投资也会形成心理承诺。而基于人类知识的方法往往会使系统变得复杂,不利于利用计算能力的通用方法。有很多例子显示 AI 研究者是如何迟迟才领悟到这个苦涩的教训,回顾这些案例非常有启发性。

以计算机国际象棋为例,1997 年击败世界冠军卡斯帕罗夫的方法主要是深度搜索。当时,大多数计算机国际象棋研究者对此表示失望,因为他们更倾向于利用对棋局特殊结构的人类理解。然而,当一个简单但基于搜索的方法,结合特殊的硬件和软件展现出巨大效能时,这些基于人类知识的研究者并不愿意接受失败。他们认为,尽管这次“蛮力”搜索获胜,但它并非一种通用策略,也不是人类下棋的方式。这些研究者本希望基于人类理解的方法能够取胜,对实际结果感到失望。

在计算机围棋的发展中,也出现了类似的模式,只是晚了 20 年。最初的努力都在于避免搜索,尽可能利用对游戏的人类理解和特殊特征,但一旦有效地应用了大规模搜索,这些努力都显得微不足道,甚至有害。在这个过程中,通过自我对弈学习价值函数(在很多其他游戏中也是这样,甚至包括国际象棋,尽管在 1997 年首次击败世界冠军的程序中学习的作用并不大)也非常关键。自我对弈学习和一般学习,就像搜索一样,能够充分利用大量计算资源。在计算机围棋和国际象棋中,研究者最初都是试图利用人类的理解来减少搜索的需要,但最终通过接受搜索和学习才取得了巨大的成功。

在语音识别领域,1970 年代由 DARPA 赞助的一场早期比赛就是一个例子。参赛者包括使用了大量人类知识(如对单词、音素、人类声道的理解)的特殊方法,而另一边则是更依赖统计和大量计算的新方法,基于隐马尔可夫模型(HMMs)。最终,基于统计的方法战胜了基于人类知识的方法。这导致了自然语言处理领域的一次重大转变,随着时间的推移,统计和计算开始成为该领域的主导。深度学习在语音识别中的兴起是这一趋势的最新体现。深度学习方法更少依赖人类知识,使用更多的计算资源,并通过在大型训练集上的学习,极大地提升了语音识别系统的性能。与游戏领域相似,研究人员总是试图创建一个按照他们自己的思维方式工作的系统,但这种尝试最终证明是逆向而行,不仅浪费了大量的研究时间,而且在大量计算资源可用并找到有效利用方法的情况下,这种尝试显得更是多余。

计算机视觉领域也经历了相似的发展模式。早期的方法试图通过搜索边缘、广义圆柱体或 SIFT 特征来处理视觉问题。但在今天,这些方法都被淘汰了。现代的深度学习神经网络仅使用卷积和某些类型的不变性概念,取得了更好的表现。

这是一个重要的教训。作为一个领域,我们还没有完全吸取这一教训,仍在重蹈覆辙。为了识别并避免这种错误,我们必须理解其吸引力所在。我们必须领悟到,试图构建一个基于我们认为自己思考方式的系统是行不通的。苦涩的教训源于这样的历史观察:
1) 人工智能研究者经常试图将知识融入他们的代理中;
2) 这在短期内总是有益的,也让研究者感到满足;但
3) 从长远来看,这种做法会导致进步停滞,甚至阻碍进一步的发展;
4) 真正的突破性进展最终是通过一个相反的方法实现的,这个方法基于通过搜索和学习来扩大计算的规模。这种成功带有苦涩,往往消化不良,因为它是在人类中心化方法之上取得的。

从这个苦涩的教训中,我们应该明白通用方法的巨大力量,即那些随着计算能力的增长而持续扩展的方法。在这方面,似乎可以无限扩展的两种方法是搜索和学习

苦涩教训中的另一个关键点是,人类心灵的实质内容极其复杂,不可能简化;我们应该放弃试图简单化地理解心灵内容,如空间、物体、多重代理或对称性等概念。这些都是外部世界中任意而复杂的部分,不应该成为我们构建的核心;相反,我们应该构建的是那些能够发现并捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似,但寻找这些近似的过程应该由我们的方法来完成,而不是我们亲自动手。我们希望 AI 代理能像我们一样具有发现能力,而不是仅仅包含我们已有的发现。将我们的发现直接构建进去,只会使我们更难看清如何实现发现的过程。

2.1.2.4 重要的事情

生命中重要的事情发生时总是让人猝不及防,而那些不重要的事情则从来都计划周详。” https://mp.weixin.qq.com/s/Z_1cyTsGSZhJaCRCeu9s-g


1、大事都是自下而上发生的,只有小事可以自上而下。商战的成功也一样:“心里想的是A,嘴里和投资人说的是B,手底下做出来的是C,用户把它当做是D来用,最后在E上终于赚到了钱。”现在的巨头都是不断淘汰进化的幸存者,事后诸葛亮事前…… 《自下而上》马特·里德利


2、人脑的主要功能是预测和解释。自下而上发生的大事只能是解释,不可能预测。
“1.2.2.7 解释器”:http://47.92.147.95/index.php/2022/10/18/229/08/

“1.2.2.14 贝叶斯大脑(Bayesian Brain)”:http://47.92.147.95/index.php/2022/11/28/560/15/

AI的发展和应用也一样。AI 的风险:人类过度依赖AI系统的帮助(为关键事情做选择的责任从人类转嫁到机器上)。由于自下而上、不可预测的特性,过度依赖对整体的发展趋势也不会产生太大的区别(从可预测性而言)。但可能造成的问题:人需要承担的选择的责任发生了转移;大数据推荐算法决定了我们的偏好。


3、人生不如意事十之八九。尽人事听天命其实算得上是一种积极健康的心态,只问自己是否全力付出,并不把付出和结果之间强制绑定。

2.2.2.2.2 《AI的25种可能》

约翰·布罗克曼

04 人工智能第三定律 乔治·戴森

第一定律 阿什比(W. Ross Ashby)定律:任何有效的控制系统必须与它控制的系统一样复杂。

第二定律 冯·诺伊曼定律:一个复杂系统的定义特征一定包含对其行为的最简单的描述。生物体最简单的完整模型是生物体本身。试图减少系统行为,达到任何形式化描述的程度,只会使得事情变得更复杂,而不是变得更简单。

第三定律:任何一个简单到可以理解的系统都不会复杂到可以智能化行事,而任何一个复杂到足以智能化行事的系统都会太过于复杂而无法理解。Any system simple enough to be understandable will not be complicated enough to behave intelligently, while any system complicated enough to behave intelligently will be too complicated to understand. (佛曰:第一义皆因言说,言说是世俗,是故若不依世俗,第一义则不可说。禅宗:教外别传,不立文字。直指人心,见性成佛。维特根斯坦:凡于不可言说之物,我们都应保持沉默。)

我们完全有可能在不理解时构建某个东西。无论程序员及其伦理顾问如何监控计算程序,他们都永远无法解决这个漏洞。“好的”人工智能是个神话。我们与真正的人工智能之间的关系将永远是一个信仰问题,而不是证据问题。对那些相信他们能制造机器来控制一切的人,大自然对此的反应将是允许他们建造一台机器,来控制他们。

05 我们将如何应对?丹尼尔·丹尼特

我们不需要有意识的人工主体。我们需要的是智能工具。不让人工主体有意识的原因之一是,不管它们变得多么有自主性(原则上,它们可以像任何人一样有自主性、能自我提高或自我创造),如果没有特殊规定的话,它们不会像我们这些有自然意识的人类一样,有弱点,会死亡。我们创造的不应该是有意识的类人主体,而应是一种全新的实体,更像是圣人,没有良知,没有对死亡的恐惧,没有令其分心的爱和恨,没有个性,但是各种各样的弱点和怪癖毫无疑问会被看成是系统的“个性”:一箱箱的真理(如果我们幸运的话)几乎可以肯定会被零星的谎言所污染。学习与它们共存却不被这些人工智能奴役我们的奇点论所分心,真的很难。人有人的用处将很快改变,再次、永远地改变,但如果我们对自己的行为负责,我们就可以在危险之间掌握主动权。

07 智能的统一 弗兰克·维尔切克

1)激励驱动行动:大卫·休谟在1738年写下了“理性是,并且只应该是,激情的奴隶”这一番引人注目的言论。当然,这番话是指人类的理性和人类的激情。但休谟的逻辑、哲学观点也对人工智能有效。简单地说:驱动行为的是激励,而不是抽象的逻辑。

2)涌现:菲利普·安德森(Philip Anderson)《多就是不同》(More Is Different):“还原论假设,也就是基于简单部分的已知相互作用的物理解释具有完备性这一假设,可能仍然是哲学家们争论的话题,但对于大多数活跃的科学家,我认为他们会毫无疑问地接受这一假设。对于大而复杂的基本粒子聚集体的行为,不能用几个粒子表现出来的性质进行简单外推。”大小和复杂性每升到一个新级别,都会有新的组织形式出现,其模式以新方式编码信息,其行为以新概念进行描述。

从两个得到有力支持的假设中,我们得出一个简单的结论:

人类的心智源于物质。弗朗西斯·克里克《惊人的假说》(Astonishing Hypothesis):“心智只不过是一个巨大的神经细胞组群及其相关分子之间的交互作用”

物质是物理学定义的。

因此,人类的心智是从我们能够理解并可以人工再现的物理过程中涌现出来的。

因此,自然智能是人工智能的一个特殊情况。

3)人工智能胜过自然智能的优势是永久的,而自然智能胜过人工智能的优势,虽然目前是实质性的,但似乎这只是暂时。The advantages of artificial over natural intelligence appear permanent,while the advantages of natural over artificial intelligence, though substantial at present, appear transient.

我们可以展望在接下来的几代人里,人类通过智能设备变得更强,将与越来越有能力的自主人工智能共存。那时将有一个复杂的、迅速变化的智能生态系统,并因此迅速进化。考虑到工程化设备最终将具有的内在优势,进化的先锋将是机器人和超级头脑,而不是微不足道的智人。我们的不受太阳系、银河系限制的未来,如果没有人工智能的帮助,将永远无法实现。

奥拉夫·斯塔普雷顿(Olaf Stapledon)1935年《怪约翰》(Odd John)小说中的英雄,一个突变超人,将我们智人形容为“精神的始祖鸟”。“始祖鸟是一种高贵的动物,它能进化成更高级的生物。”他充满深情地把这句话说给他的一个普通人类的朋友和传记作家听。