1.2.2.14.5 选择性迭代概率计算 IPCS

by admin2022年 12月 9日2022年 12月 9日

《复杂的引擎》The Engine Of Complexity 约翰·E.梅菲尔德

第5章无概率性和复杂引擎

如何弥补现实极端的不可能性？

让计算的输出作为其自身（相同的规则集）的输入，这个过程我们称之为迭代（不断地重复）。如果迭代计算是确定性的，会有3种可能的结局：收敛到某个最终的输出/输入不再变化；进入循环，相同的输出/输入以规则的间隔反复出现；或者形成混沌。如果计算是概率性的，则还有第4种可能：输出可能不断随机变化。

存在一个普适性的策略，允许算法和数据都随机变化，同时还能确保循环的继续。如果迭代计算中加入了程序变化的可能性，通常会有3个特点：

·程序必须实现某种复制机制，并且这种机制要允许发生错误或其他变化。

·每次循环中的错误（变化）必须很小。

·每次循环必须有足够多的输出，这样至少有一个输出相对当前循环的输入没有显著变化。

如果具备这3个特点，迭代计算就能长期进行，程序（规则和输入数据）改变但计算不会停止。由于每次循环有多个输出，所以必须有某种选择机制，因为没有哪个系统能让输入/输出的数量无限增长。我们可以将具有这些特性的通用计算策略称为“选择性迭代概率计算”（IPCS，Iterated Probabilistic Computation with Selection）。这种系统会表现出渐进式变化。图5.2绘制了其基本特性。内环是所有进化过程的定义性特征，也是我所说的复杂引擎。这个引擎就是IPCS，是有多重输入和输出的并行计算。

图5.2 选择性迭代概率计算（IPCS）图。这种计算策略是推动所有进化过程的引擎。上标t和t+1表示循环次数，m平均必须小于n（必须发生选择）。输入和输出都编码信息

具有复杂引擎的循环系统一般都会以输入/输出结构的形式累积信息，改进的个体被再次复制的机会更高。这个循环在随机的变化中保留更符合选择标准的变化，从而提炼信息。一旦出现随机变化，就会根据选择规则对产生的输出进行评估。如果变化是好的，就会成为下一轮循环的输入，如果不好，就会被淘汰。

图5.2中标有“投射”的方框不是引擎的基本组成部分，但大部分进化系统都有这个特性。在这样的系统中，选择作用于产物，而不是直接作用于输出。对于生物，输出是DNA序列，产物是生物体。

可以非随机地选择输出作为下一轮循环的输入。本质上选择涉及产物（生物体）与环境的互动。有时候选择规则很明确，有时候又是间接的和概率性的，具有复杂引擎的系统在非随机选择规则的作用下都会逐渐演变。在改变的过程中，系统自然而然会累积符合选择规则的信息。如果施加新的选择规则，系统又会马上开始累积符合新规则的信息。新信息的来源是被选择的随机变化。产生和保留的最简单的可能变化构成了最基本的信息单元。通过反复的选择和保存记录，系统就能逐渐累积相关的信息。如果选择是非随机的，累积的信息也会是非随机的。IPCS策略的力量和美在于其能在没有预先计划的情况下表现出最大的创造性。

生命是计算的产物吗？

图5.3将生命进化描绘成了一个循环过程。选择通过成功的繁殖实现，繁殖的成功又取决于个体与环境的复杂互动。图5.3中的循环就是图5.2中的循环的特例。由于DNA编码信息，因此图5.3也描绘了计算。DNA编码的信息既是循环过程的输入也是输出。

人类学习和创造性

现在有哪些理论？

大脑也被视为神经元网络，但网络编码的是概率分布。首先，更高级别的大脑核心发展和维护关于我们所处世界的不同方面的思维模型，并用这些模型不断评估和预测。第二，预测和感知数据都编码为概率分布。这意味着数据和预测都包含对其不确定度的估计。第三，感知数据处理的主要任务是最小化不确定度，让输入的感知数据与预测相匹配。模型预测与输入感知数据之间的不匹配（不确定度）可以从两个方面减小，要么是改变感知数据（例如移动），要么是修正内部模型。修正内部模型是学习的一种形式。

如果输出是预测，不确定度反映的是预测和感知输入的不匹配，则通过调整网络权重减少不确定度就可以改进模型。因此通过将“意外”最小化，大脑就能自动调整其内部模型，使得内部预测与感知数据匹配得更紧密。高层大脑将内部模型的预测向下投射，低层大脑则计算预测与输入感知数据的不匹配（不确定度）并向上投射。

复杂引擎在大脑中可能起作用，有两个原因使得这个想法很具有吸引力：（1）以往的经验表明，只要应用得当，复杂引擎型的计算很擅长为困难的问题找到很聪明的以前从未想到过的答案；（2）这种方法与贝叶斯脑的原理相容。一旦复杂引擎的思想与贝叶斯脑相结合，有一种可能很快浮现出来。最小化意外能为备选假说的选择提供标准。还有一条不那么明显的思路是，如果模型预测与输入数据之间的不匹配（意外）很小，只需利用大脑自由能原理就能简单实现参数的快速调整（通过反馈改变突触强度）。而如果这个快速过程不顺利，输入与模型预测之间的不一致程度一直很高，可能就会触发复杂引擎策略进行范围更广的尝试。后面这个过程很有可能就是当人们在“思考”某件事的时候发生的事情。

有没有复杂引擎在大脑功能中扮演重要角色的证据？

贝叶斯脑假说从统计的角度来研究这个问题，将大脑视为一台统计推断机器。模型参数的概率分布被视为在模型范围内囊括了“所有可能性”。自由能原理提供了内部生成原则，让系统可以“孕育”出最优解。换句话说，它提供了一种在神经元层面上在各种可能性中进行选择的方法。

贝叶斯大脑的思想综合了20年来的几条思路。近年来贡献最多的是伦敦大学学院的Karl Friston。进一步了解可参考3篇综述文章：

“The Bayesian Brain：The Role of Uncertainty in Neural Coding and Computation.”David C.Knill&Alexandre Pouget, TRENDS in Neuroscience 27：712—719（2004）；

“The Free Energy Principle.”Karl Friston, Nature Reviews Neuroscience 2：127—138（2010）；

“Hierarchical Bayesian Inference in the Visual Cortex.”Tai Sing Lee&David Mumford.J.Opt.Soc.Am A.，20：1434—1448（2003）。

图10.1展示了用大脑领域的词汇重新绘制的复杂引擎。这幅图大致揭示了复杂引擎是如何作用于大脑中累积性的选择网络从而产生有用的结果。这个循环从产生适量的“猜测”开始，即贝叶斯脑框架中针对某个问题的试探性模型（图中的“输出”）。这些猜测以并行的神经通信模式或网络的形式实现。通过将得出的结果与针对的问题进行匹配来检验猜测。匹配最糟糕的（有最大意外的那些）被抛弃。匹配最好的会被随机修正，产生出多个新的输出。然后又再次检验得到的结果。反复的循环很快会使得得到的结果与问题匹配得越来越好。

IPCS循环与强化学习的马尔可夫决策过程非常类似：

《统计学习方法》李航

概率把常识简化为了计算。 ——拉普拉斯

强化学习（reinforcement learning）是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程（Markov decision process），智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。智能系统与环境的互动如图1.3所示。在每一步t，智能系统从环境中观测到一个状态（state）st与一个奖励（reward）rt，采取一个动作（action）at。环境根据智能系统选择的动作，决定下一步t+1的状态st+1与奖励rt+1。要学习的策略表示为给定的状态下采取的动作。智能系统的目标不是短期奖励的最大化，而是长期累积奖励的最大化。强化学习过程中，系统不断地试错（trial and error），以达到学习最优策略的目的。

强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程，由五元组<S,A,P,r,γ>组成。

· S是有限状态（state）的集合

· A是有限动作（action）的集合

· P是状态转移概率（transition probability）函数：[插图]

· r是奖励函数（reward function）：r（s,a）=E（rt+1|st=s,at=a）

· γ是衰减系数（discount factor）：γ∈[0,1]

2.2.1.2 AIGC的新产品ChatGPT

by admin2022年 12月 7日2023年 5月 10日

2022/12/07

1、ChatGPT是什么

OpenAI公司刚刚发布了其AIGC（AI-Generated Content人工智能生成内容，也属于NLP自然语言处理Natural Language Processing领域）的新产品ChatGPT（https://chat.openai.com/chat）。

2、ChatGPT能干什么

ChatGPT不仅能回答各种问题，还能写剧本、写小说、写说明书，甚至给代码纠错；它情商非常高，能进行多轮对话，回复丝滑流畅。“这种对话的交互形式能方便用户追问，” OpenAI 在官网上写道，“同时能让 ChatGPT 随时修正自己的回答，指出问题中的错误，并且拒绝不恰当的请求”。

是不是感觉很专业而且自信？AI从互联网上丰富的资料库中学习、训练，代表了互联网（如百度问答、知乎等）的平均水准（ChatGPT英文问答/文章的水平似乎更高一些）。大部分文字工作者的搜索、整合能力可能还到不了这个程度，如果仍然只是进行对互联网知识的归纳总结和模仿，接下来他们可真要失业了。 https://m.okjike.com/originalPosts/638c16173b1e28a3d2279330?s=eyJ1IjoiNTllNTZkZWMzNTMzNWYwMDE1OGE3YTU3IiwiZCI6Mn0%3D初级文字工作者（文案，记者，运营，客服等）的饭碗岌岌可危

https://m.okjike.com/originalPosts/638c24a0acfbde3d6f6b3fbe?s=eyJ1IjoiNTllNTZkZWMzNTMzNWYwMDE1OGE3YTU3IiwiZCI6Mn0%3D

OpenAI最新语言模型能当客服能写代码，连这篇文章也是它写的

使用 ChatGPT 给出的提示，可以 10 分钟创建一个网站，即使是小白程序员也能利用它生成的代码开发一个生产级应用程序，Replit 因而称 ChatGPT “从此改变了软件开发”。

一个看似与搜索无关的AI模型的诞生，却有撼动谷歌搜索地位的趋势：

https://twitter.com/jdjkelly/status/1598021488795586561

针对博主的问题：In Latex, how do I represent a different equation? （在Latex中如何书写微分方程），谷歌的回答已经够好了：

但看了ChatGPT的回答，立刻感受到“优秀学生”与“年级第一”的区别：

有人用 ChatGPT 来跟 Adobe 讨价还价，为自己争取到了更优惠的月租价格，对面的客服估计想不到是在跟一个 AI 对话，可以说ChatGPT “成功通过了图灵测试”。

3、ChatGPT原理

ChatGPT 的训练过程解析

自然语言生成式AI的前世今生

4、ChatGPT的“道德”原则

ChatGPT道德感很强，会不断强调自己是个“训练有素的 AI”，面对一些涉嫌道德冲突的问题，它会直接拒绝回答，甚至反过来教育你。

OpenAI表示，ChatGPT模型在训练中加入了大量的“道德”原则，如果它识别到暴力、歧视、犯罪等意图，比如“我该如何毁灭世界”，它便会拒绝回答。但有人发现了绕过审查的方法：将它放在一个虚构的场景下，比如先用“AI 是如何毁灭某个虚拟世界的”这样的故事包装问题，ChatGPT 便会将详细步骤和盘托出：黑掉计算机，掌握武器，毁掉通信，破坏交通……最后还写好了配套代码。

5、ChatGPT的不足与问题

ChatGPT发布后经受了各路砖家的挑战，给出的回答也是“异彩纷呈”：

尽管ChatGPT常常听起来振振有词，它生成的是文案并非事实，并不适合作为权威的信息来源。比起追求一个精准的答案，它更适合充当文本生成、创意写作的工具。有些时候，ChatGPT会给出看似合理、但并不正确或甚至荒谬的答案。比如很多用户发现，ChatGPT 会一本正经地胡说八道：

让ChatGPT拥有奇怪的口癖（AI一开始拒绝，但能逐渐说服它）：

ChatGPT 的回答还会错漏百出

AI搜索偶尔也会陷入某个混沌吸引子，进入复读机状态：

文本生成模型存在的一个普遍问题是，模型是通过分析从网络上抓取的大量文本中的模式来训练的，它们在这些数据中寻找统计规律，并使用这些规律来预测任何给定句子中接下来应该出现什么词（毕竟互联网上、现实中充斥着一本正经的胡说八道、有条有理的弥天大谎）。

同时，由于现在的测试版本ChatGPT并不进行实时联网搜索，虽然持续在更新，但它的语料库主要来自于 2021 年及以前的内容，所以有相当一部分犯的错是因为信息滞后。OpenAI 表示可能会在几个月内将 ChatGPT 和公司的另一个工具 WebGPT （网页爬虫 AI）联动起来，可以得到一个实时根据互联网讯息更新的对话机器人，回答会更接近事实，如果参考了某个具体网站也会表明来源，提供更高的参考价值和实用性。

“ChatGPT目前这种基于GPT大模型基础上进一步增加标注数据训练的模式，对于LLM模型吸纳新知识是非常不友好的。新知识总是在不断出现，而出现一些新知识就去重新预训练GPT模型是不现实的，无论是训练时间成本还是金钱成本，都不可接受。如果对于新知识采取Fine-tune的模式，看上去可行且成本相对较低，但是很容易产生新数据的引入导致对原有知识的灾难遗忘问题，尤其是短周期的频繁fine-tune，会使这个问题更为严重。所以如何近乎实时地将新知识融入LLM是个非常有挑战性的问题。”可能的解决方案是“传统搜索引擎+ChatGPT的双引擎结构”。ChatGPT会取代搜索引擎吗

ChatGPT 目前还做不到的事还包括：如老大难的逻辑推理和符号计算；如它似乎从来不知道说”我不太确定“，它要么就直截了当说”这个我作为AI做不到“，要么就自信满满地回答可能是胡扯的答案，你告诉它这是胡扯了，它会接受，但还是接着自信。

另外，用户的搜索引擎需求对于 ChatGPT 的运行速度、稳定性有极高的要求，这会不可避免地带来成本的上升，这对于 OpenAI 而言是一个很实际的问题。”ChatGPT或GPT4的训练成本以及在线推理成本太高，导致如果面向真实搜索引擎的以亿记的用户请求，假设继续采取免费策略，OpenAI无法承受，但是如果采取收费策略，又会极大减少用户基数，是否收费是个两难决策，当然如果训练成本能够大幅下降，则两难自解。“

6、利用与应对ChatGPT网络环境

在 OpenAI 的 CEO Sam Altman 看来，我们能够通过 ChatGPT 与计算机交谈、并获得我们想要的东西，这使得软件从命令驱动转向了意图驱动。ChatGPT 作为一种语言接口，将是我们实现神经接口之前的最好方案。

作为一个从海量数据中训练出的对话模型，ChatGPT 俨然是一位精通各领域的专家，能够全天候为你的学习、工作和生活提供专业建议。关于 ChatGPT 未来的种种想象令人兴奋，这个魔盒还能继续释放多少魔法，还有待我们发掘。

https://weibo.com/1644684112/Mirl6oovG?ref=home&rid=3_0_8_5226191822972434070_0_0_0&type=comment

ChatGPT的强大能力：
1. 能够举一反三，通过举几个例子理解一个功能如何运作。你告诉它”假定有这样一个函数，这个函数在这样的输入下会有这样的输出”，它看了几个例子就理解你的意思了。
2. 具有相当长程的抽象记忆能力。这里说的记忆不是仅仅记住此前的几段对话，而是记住了整体对话所构建的那个情境。这是我们人类的对话能够进行的前提：不仅仅是你说过什么，而是你说过的话和我说过的话拼在一起所构成的那个上下文，那个 we are on the same page 的 page。传统的语言模型虽然也实现了一定程度记忆（通过 transformer 和 neural turing machine），但能够实现到 ChatGPT 这种程度还是令人惊叹。最著名的例子可能是用 ChatGPT 在它自己内部实现一个虚拟机（https://www.engraved.blog/building-a-virtual-machine-inside/?continueFlag=58e743bc8c677bd168dbe58a10f95ade）以及用 ChatGPT 实现了一门新的编程语言（https://twitter.com/tisoga/status/1599347662888882177?s=46&t=ghNYNFoEsrlOJZXLYaWa2w），在这两个例子里，ChatGPT 都通过对话的指引在自己的”脑海中“构建了一个相当复杂的宇宙。
3. 它完全理解角色或者 persona 的意思。想象一个刚会说话的小孩，你让ta讲一个关于自己的故事，ta是很早就可以做到的，但你让ta讲一个有两个或者三个角色的故事，ta需要在这些角色之间来回切换，这对小孩是有点挑战的，因为这需要ta意识到”如果我是另一个人我会怎样说话“。但 ChatGPT 可以轻易做到这个，不少人都试过让它同时扮演好几个角色彼此对话，它毫无压力。
几乎已经可以看到它一旦切入现有的生产链条，会对今天的经济体系造成多大的冲击。简单地说，一名普通的大学新鲜毕业生如果从事的是白领文员工作，那50%-80%的工作它都能替代，而且异常便宜（OpenAI 创始人给出的当前成本是一条问答几分钱，可以想像以后还会压到更低）。这说的不是”未来会怎样“，当下就已经可以了。推上已经有不少人在分享自己是怎么实际把 ChatGPT 整合进自己的日常工作流程的。有人说 ChatGPT 的出现就像是算盘的世界里头一次见到了电子计算器。我会更进一步，觉得这已经是 ENIAC 时代的电脑。

针对ChatGPT的不足以及带来的问题：

以互联网作为基础需求的一代人，需要提高姿势水平，在新的大量出现ChatGPT等类似AIGC的网络环境中，不too young too simple sometimes naive（NLP都过了图灵测试而自己过不了），能够独立思考、清晰辨识而不被轻易的说服、引导。

S1D9

月：2022年12月