1.2.2.14.8 预测加工理论

1.2.2.14.8 预测加工理论

预测加工理论(Predictive Processing,PP,即近年在认知科学领域出现的预测编码理论Predictive Coding)的基本观点:大脑可以看作一个“概率预测的机器”(probabilistic prediction machine),持续地将“自上而下”的先验预测结果与“自下而上”的实际知觉输入进行匹配,推断出当下知觉的原因并据此采取行动,以降低先验预测结果与实际状态之间的误差。理论的核心在于大脑对知觉来源的主动预测和神经建构,即依靠感官的输入大脑如何建构关于外部世界的知觉。PP理论用大脑神经元的联结以及联结过程中所涉及的数学模型来刻画认知活动,能提供一个“关于知觉、认知和行动的深度统合的理论”(理论支持者的观点),为心灵活动提供一种“大一统”理论的可能性。

这种自上而下的感知理论的雏形可以追溯到19世纪普鲁士物理学家亥姆霍兹(H. Helmholtz)提出的“无意识推理”思想。伊曼努尔·康德曾经认为,大脑是通过内在的心智概念来理解复杂的感官世界的。威廉·詹姆斯:“观念变成了真的,是事件使它为真的。它的真实性实际上是一个事件,一个过程:也就是它证实自身的过程,它的证实活动。它的有效性就是使之生效的活动过程”。1860年代,亥姆霍兹提出的“间接知觉”理论把知觉看成是一种无意识的推理活动,认为知觉会根据似然原则进行推理,将所接收的杂多的知觉刺激信息知觉为最有可能形成该刺激图案的客体。也就是说知觉系统会利用所接收到的关于环境的信息来推理实际上的可能客体。

PP理论内核的形成受益于贝叶斯推理(Bayesian inference)以及神经科学和脑科学的最新研究成果。近十年来,该理论正在试图发展成为解释知觉、行动、注意力的大一统认知研究范式,其代表人物包括:神经科学家弗利斯顿(K. Friston)、弗里斯(C. Frith)以及哲学家克拉克(A. Clark)、侯宜(J. Hohwy)等。PP理论的基本概念有分层生成模型,预测误差最小化,自由能最小化,感知推理,积极推理,贝叶斯推理,近似贝叶斯推理,马尔科夫毯等。

大脑对知觉的神经建构包含了“自上而下”与“自下而上”两种不同的预测加工形式:

  • “自上而下”的预测:大脑利用已有的知觉结构,形成一个独立于认知经验内容的先验预测;
  • “自下而上”的预测:大脑基于当下的知觉输入而进行的预测。

这两种预测加工方式同时发生作用,并由此形成了一个复杂的“层级预测”模型。

一旦输入的感官证据与大脑自上而下的先验预测结果不一致时,预测误差(prediction errors)就产生了。为了消除预测误差或使之最小化,生命必须采取行动以改变整个状况的某个方面,或者修正自身已有的模型,从而消除预测误差,重建与环境的顺利互动。这时较低层级的神经环路就会自下而上地将误差提示传入较高层级的神经环路,以修正和更新原来的预测结果并最终形成最佳的预测结果。从这个意义上说,知觉内容并非取决于外部世界的感官刺激,而是大脑通过不同层级的神经环路间彼此刺激而生成的关于外部世界预测的结果。弗里斯:“我的知觉不是世界本身,而是我大脑中的世界模型。”

《新机器智能》On Intelligence 霍金斯

第5章 记忆-预测模型,全新的智能理论

第6章 记忆-预测模型是如何工作的

在PP理论中,模型的一个基本功能就是生成预测,因此模型也称为“生成模型”(generative model)。已建立的模型(或者知识)只具有假设和暂行的(hypothetical and tentative)地位,它不是一个独立、自足的终点,而是生命采取行动策略的基础。

克拉克进一步强调,预测误差的基本功能与其说是帮助生命更新其关于世界状况的知识,不如说是引导生命与现实世界实现流畅的互动,因此,不能将预测加工单纯地理解为“将证据(感知输入)、先验知识(产生预测的生成模型)以及对不确定性的评估(通过调整预测误差的精度权值)结合起来,产生一个关于世界状况的多尺度最佳猜测”。PP与实用主义认识论的一致性在于,它不是一个狭义的认知理论,而是一个关于认知与行动如何结合最终服务于生命的理论。大脑积极生成层级预测的同时,还通过“积极推理”(如引发身体的行动)获取最新的知觉信息,以协助大脑对引起知觉的远端起因进行调控和解释。由此,知觉作为调节预测结果的参数,以及行动作为改变预测对象的手段,在预测加工的解释框架中获得了统一。安迪·克拉克《预测算法:具身智能如何应对不确定性》

《Philosophy and Predictive Processing》Thomas Metzinger & Wanja Wiese (Eds.),2017 by MIND Group

1 Vanilla PP for Philosophers: A Primer on Predictive Processing ,Wanja Wiese & Thomas Metzinger

1.2.2.14 贝叶斯大脑(Bayesian Brain)

1.2.2.14.1 第一个证明大脑皮层特定区域能够实现动态贝叶斯推断的实验

论文:大脑皮层中动态贝叶斯推理的神经基质(Neural substrate of dynamic Bayesian inference in the cerebral cortex)

Akihiro Funamizu, Bernd Kuhn & Kenji Doya

https://www.nature.com/articles/nn.4390

日本冲绳科学技术大学院大学(OIST)神经计算系和视觉神经成像系合作的一个项目里,Akihiro Funamizu博士、Bernd Kuhn教授和Kenji Doya教授分析了小鼠在感官输入受到障碍时接近目标物的大脑活动,第一次有实验证据证明大脑皮层的特定区域能够实现根据动作信息实现动态贝叶斯推断。研究结果于2016年9月19日发表于《自然-神经科学》(Nature Neuroscience)网站。

动态贝叶斯推理让系统能够在感知到的信息十分有限的情况下对周围环境状态进行推理。实验发现后顶叶(PPC)和相邻的后内侧皮质(PM)实现了动态贝叶斯推理的基本特征:使用一个内在的状态转换模型对不可见的状态进行预测,并使用新的感官证据更新这一预测。研究结果表明,哪怕感官输入受阻,顶叶皮层也能根据小鼠自身的运动预测目标距离,并且在感官输入可得时,预测能力也能提升,正如动态贝叶斯推断一般,大脑能依据过去的感官输入和动作推断当前的情况。Doya教授说:“这可能就是心理模拟的基本形式。”心理模拟是行动计划、决策、思考和言语的基础过程。

1.2.2.14.2 《贝叶斯的博弈:数学、思维与人工智能》黄黎原

第 19 章 贝叶斯大脑

我们的大脑是一个了不起的计算器,能对贝叶斯公式进行各种各样的近似计算。…那些通常处于无意识中的已有认知过程及其实际应用似乎惊人地吻合贝叶斯主义的计算。

第 20 章 一切都是虚构

大脑之外的世界是否存在?

从 1983 年开始,深度学习的奠基者之一、心理学家和计算机科学家杰弗里·欣顿(Geoffrey Hinton)就与合作者一同指出,大脑的行为就像一台依靠感官得到的观察结果进行预测的机器。1988 年,埃德温·杰恩斯(Edwin T. Jaynes)提出,大脑完成这一任务的方法依赖于贝叶斯公式(《Maximum-Entropy and Bayesian Methods in Science and Engineering》”2. How Does the Brain Do Plausible Reasoning”)。在 20 世纪 90 年代,欣顿和弗里斯顿(Karl Friston)由此发展了一个模型,其中大脑与外部世界被一个马尔可夫毯(Markov blanket)分隔,但大脑仍然能够重建有关整个外部世界的模型,它利用的正是由弗里斯顿在 2013 年推广到生命领域的变分贝叶斯推断(Friston提出的自由能原理)。

弗里斯顿、欣顿和杰恩斯的假说,就是我们的大脑能够仅仅从感官数据出发,重建整个关于外部世界的模型。这个关于人类思维如何运作的假说最惊人的地方,就是大脑构建关于外部世界的模型仅仅是为了解释来自感官的感受。

1.2.2.14.3 自由能原理(Free Energy Principle,FEP)

FEP通过一个马尔可夫毯建模,试图最小化他们的世界模型和他们的感觉和相关知觉之间的差异,并通过不断修正系统的世界模型来减少这种差异。因此FEP是基于贝叶斯的观点,即大脑是一个“推理机”。

集智百科 https://wiki.swarma.org/index.php/自由能原理

1.2.2.14.4 《Open Mind》 “35 The Cybernetic Bayesian Brain” Anil K. Seth

https://open-mind.net/papers/the-cybernetic-bayesian-brain

在认知科学中,有一项理论逐渐流行,即认为大脑基本上可以看做是一种预测机——prediction machines,这项理论被称为贝叶斯大脑(Bayesian brain),预处理(predictive processing,PP)和预测心理(predictive mind)理论。

PP理论认为,知觉是大脑推理得到的感觉的输入,即是实际的感官信号和不断更新的预测模型基础之上的预期信号之间的差异的结果。可以说,PP理论提供了解释知觉,认知,和行动之间的基本理论原则和结构的最完整的一个框架。

为了支持适应性反应,大脑必须发现外部“隐藏”的产生感觉信号信息的原因。它不能直接访问这些原因,只能在信息流中找到感觉信号本身。因此,为了做到这一点,大脑产生了许多预测感官输入的模型,并且通过预测误差来更新模型以减少误差。对于皮质区,传统的观点描述感知很大程度上是自下而上的过程。而PP则相反,提出感知的内容是决定于自上而下的预测信号,而且预测信号由多层次与分级组织的处理感官信号的模型所生产。而这些模型也是处于不断的更新与完善之中的。这就意味着大脑可以归纳出愈发精确的关于外部隐藏信息的生成模型。

PP理论可以看做是自由能原理的一种特殊情况。这样假设的一大好处是为PP理论带来了丰富的数学框架,使PP可以运用于实践。而且形式上取决于既的定原则的贝叶斯推理和模型规范。生物(神经)机制通过贝叶斯近似计算来实现显示的预测推理,在这一点上,自由能原理可以拥有最大的解释力。

PP理论和自由能理论与控制论的渊源。一些对控制论的总结范式提供了一个独特的PP理论认知与生物适应性关联的视角。可以概括为,认识的目的(包括感知和行动)是维持必要的变量和组织内部的平衡(超稳定性)。这意味着要有一个足够复杂的响应控制机制的存在(即抑制力)来响应各种扰动(必要多样性定律)。此外,这种结构必须通过实例模型的系统被控制(良好的调节定理),系统包括人体和环境(以及它们之间的相互作用)。就像Ashby所称的“整个的大脑的功能可以概括为:纠错”。由此我们可以说,感觉是一种对组织稳态的一个更基本的命令的成果,而不是在一些过程中的内部世界模型的构建阶段。

“大脑是一个贝叶斯网络,我们的思维就是贝叶斯网络金字塔的顶端”这个大胆的观点被越来越广泛地受到神经科学家、物理学家和心理学家的认同。从初级脑区到高级脑区,大脑在进行贝叶斯计算。通过理论与数学框架的联系,科学家们可以找出大脑进行贝叶斯计算的基本单位“范式回路”。

1.2.2.14.6 “Are our brains Bayesian?”Robert Bain

https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2016.00935.x

审视控制感知和运动的无意识过程以及管理我们如何思考和评估证据的高级认知过程:

剑桥大学神经科学研究中心的Daniel Wolpert教授认为,我们拥有的贝叶斯大脑对我们所做的每一个动作的结果进行可靠快速的预测。在贝叶斯公式下,“信念”是我们的大脑已经知道的关于世界的本质,而“证据(经验)”是我们的感官关于现在正在发生什么的输入。当我们经历生活时,我们的大脑收集不同运动任务的统计数据,并将这些以贝叶斯方式与其他数据相结合。Erno等人发表在“ 科学”杂志上的一项研究,一岁大的婴儿“期望与贝叶斯观察者模型一致”,反映了“理性概率期望”。

其他研究人员已经在更高层次的认知中发现了贝叶斯主义的迹象。加利福尼亚大学伯克利分校的Tom Griffiths和麻省理工学院的Josh Tenenbaum在2006年的一项研究中要求人们预测人们将活多久,电影会赚多少钱,以及政客们上任的时间。他们获得的唯一数据是到目前为止的运行总数:当前年龄,到目前为止的资金,以及迄今为止在办公室服务的年数。研究人员发现,人们的预测与贝叶斯计算得出的预测非常接近。这表明大脑不仅掌握了贝叶斯定理,而且还基于对人类生命跨度,票房收入和政治任期的不同分布模式的理解,对这些现实生活现象进行了精细调整。

1.2.2.14.7 贝叶斯大脑假说 “The Bayesian Brain Hypothesis:How our brain evolved to look into the future” Manuel Brenner

The Bayesian Brain Hypothesis

贝叶斯推理(Bayesian Inference)发生在多个认知层面,从动作控制到注意力和工作记忆。每一个认知任务都会根据贝叶斯推理得出自己的预测、自己的内部模型以及独一无二的时间表。大脑并不仅仅是一个消极接受外界信息并对其做出回应的检测器。事实上,大脑采用自上而下的模式(指高阶概念首先对接受低阶感觉数据的方法进行塑造),对世界是什么样的,以及世界将会是什么样的作出假设,从而不断更新其对世界的印象。

1)稳态(homeostasis)

稳态指维持生命系统内部的物理和化学过程,使得生命系统保持完整,防止消散,是一种能够与自然界的无序倾向相抵抗的自组织原则。安东尼奥 · 达马西奥定义了内稳态:生命系统并不是静态的,生命有自主性,为了将意外最小化,并在充满不确定性的未来中存活下去,它们不断优化以更好地适应未来。

2)预测未来

人类千方百计地想要预测并改变未来。为了减少未来的不确定性,我们(以及我们的大脑)基于当前对世界的认识,尽可能地对未来作出预测,并思考应该怎样指导自己的行为,使得结果更加有利于生存。

3)世界的内部模型

如果想要对世界的行为,特别是未来的行为建模,大脑需要有一个“世界是什么”的内部模型,来了解“世界可能成为什么”。大脑需要能够在接受世界状态的最新信息后,更新世界的内部模型。采用统计最优的方法,基于最新信息更新内部模型的概率分布,这就是贝叶斯推理。我们通常可以在行为实验中,或关联各个感官输入时,观察到大脑的这种推理。比如1992年Britten等人的目视动作分析(https://www.ncbi.nlm.nih.gov/pubmed/1464765)表明,猴子大脑会基于对刺激作出的神经反应或发射率,尝试解码目视动作一致性,其解码速率会向贝叶斯最佳解码速率靠近。

4)贝叶斯大脑假说

大脑试着利用世界生成模型来推断其感觉的成因。为了成功地对外界建模,大脑必须能够在一定程度上对外界发生的事情进行模拟。Karl Friston认为:如果大脑想要推断感觉的成因,它必须先对生成感觉输入的世界的(隐性)状态之间的关系/联结建模。之后,神经元联结便会对生成感觉信息的联结进行编码(建模)。贝叶斯大脑存被赋予了外部世界的内部表征,这两者被马尔可夫毯(Markov blanket)隔开。

贝叶斯大脑假说的第一个重点:大脑中的世界内部模型认为,大脑模型中的进程在物理世界中进行。为了成功地预测未来,大脑需要在其硬件上模拟世界。这些过程必须遵循与外部世界相似的随意性,而在观察外部世界的大脑中,一个自身的世界会变得活跃起来。第二个重点与贝叶斯推断相关:即在某种程度上,大脑是最优的,因为人类需要预测自然何时会受到影响。在分类知觉的内容或在不确定的情况下作决定时,贝叶斯大脑的工作水平近似于贝叶斯最优水平。这也就意味着,大脑在推断世界的未来(隐性)状态时,会尽可能多地考虑所有可获得的信息和所有概率约束。

科学家们仍然在激昂地争论这一理论的有效性,以及大脑实际上是如何在功能水平上应用贝叶斯推理的重大问题。

1.2.2.13 意识过程的进化机制

1.2.2.13.1 快过程(初级意识/C0意识)

《比天空更宽广》第5章 意识的机制

图7 折返式连接导致初级意识。两大关键信号类型——来自“自我”的,包括价值系统以及大脑和身体还有感觉器官的调节部位,以及来自“非自我”的,来自外部世界,通过全局映射转换的信号。与价值有关的信号和来自外部世界的范畴信号相关联并导致记忆,从而使得概念分类成为可能。“价值范畴”以及由折返式通路(加重线)连接到当前来自外部世界的感知分类信号。折返式连接是重要的进化环节,导致了初级意识的出现。一旦扩展至多个模块(视觉、触觉,等等),初级意识便构成一个“场景”,由对物体和事件的响应组成,其中一些并不必然具有因果关联。尽管如此,具有初级意识的动物还是能通过之前负载有价值的经验记忆对物体和事件进行区分和关联。这种能力增加了其生存适应能力。…是记忆和持续的感知之间的动态互动导致了意识。

折返式连接(正/负反馈闭环)导致意识过程的形成:感觉器官不断的感知 -> 反应/反射/反馈 -> 情绪 -> 感受 -> 意识

A 感觉器官 -> B 脑干、丘脑等模块(感觉神经) -> C C0意识模块/相关对象的模型的神经元网络(与预测模型一致) -> 脑干、丘脑等模块(运动神经) -> 感觉器官/行动器官(肌肉、骨骼)。同时存在大量的 B -> A、C -> A 的折返式连接。

大脑中存在大量的折返式连接:大脑的3个主要的神经生理结构(图3)。首先是丘脑皮质系统,通过丰富的往返连接将本地和远程的神经元群紧密连接到一起。其次是基底核抑制回路的多突触环状结构。再就是不同价值系统的扩散性上行投射。《比天空更宽广》第5章 意识的机制

图3 大脑中3类神经生理系统的基本结构。上图展现了丘脑皮质系统的大致拓扑,在皮质和丘脑之间以及不同皮质之间的往返连接组成的稠密网络。中图显示了连接皮质与基底核等下皮质结构的多突触环路。这些环从基底核延伸到丘脑,然后又延伸到皮质,再又从目标皮质返回到基底核。这些环路一般来说都不是往返式的。下图显示的是价值系统的扩散投射,图中从蓝斑(locus coeruleus)发出的“毛发网”状轴突散布到整个大脑。一旦蓝斑被激发,这些轴突就会释放出神经调节素去甲肾上腺素(noradrenaline)

折返式连接:缠结的层次结构,自我闭合的生产网络。闭合生产网络具有创造和构建、自我维持和自我修复的优良特性。

埃舍尔《画手》

感官知觉、记忆、经验、想像和理性都是被一个共同的纽带联结在一起的,它们仅仅是同一种基本活动的不同阶段和不同表现形式而已。” 《人论》恩斯特·卡西尔 第一章 人类自我认识的危机

“知觉不是通过积累获得的数据实现的,而是通过将预测与传入的感官数据相匹配实现的。” 《隐藏的自我》大卫·伊格曼(David Eagleman) 02 我们感知的世界都是由大脑构建的

“大脑由竞争的子系统组成:一个系统是自动化的、启发式的;另一个系统是有意识的、分析性的。

理性处理一件事,情感处理另一件事,且它们都认为自己处理问题的方法是正确的。

我们的行为是短期欲望和长期欲望斗争的结果。” 05 我们的行为是大脑不同系统竞争的结果

1.2.2.13.2 慢过程(高级意识/C1意识)

《比天空更宽广》第9章 高级意识和表征

图12 高级意识的进化。具有语义能力的灵长类动物出现了新的折返式环路,并且随着人类进化过程中语言的涌现,这种折返式环路也大量增长。新的记忆形式的产生,语义能力的拓展,再加上具有语法的真正的语言,最终导致了概念的爆发式增长。高级意识因而得以出现,自我、过去和未来的概念也与初级意识连接起来。对意识的意识也成为可能(与图7中的初级意识比较)

在一个较长(大于300ms)过程中,大量低级意识(C0意识、潜意识,处理短时程的神经元复馈回路/折返单元),在全脑空间通过价值网络(C2意识),辅之以躯体标记,竞合形成或涌现出解释/判断/决策等高级意识过程(C1 意识),同时通过解释器队列形成记忆模型并固化。

感觉器官 -> 脑干、丘脑等模块 -> C0意识模块/相关对象的模型的神经元网络(与预测模型不一致) -> 躯体标记(身体约束):竞争(300ms)全脑神经工作空间(GNW) -> C1意识模块 + C2意识模块(价值网络)形成解释/预测/决策/判断 ->

| -> C0意识模块/脑干、丘脑等模块 -> 感觉器官/行动器官(肌肉、骨骼)

-> |

| -> 解释器 -> 记忆储存/更新模型/形成新的预测

虚构(预测)对于人的必要性。闭环反馈回路:记忆 -> 虚构(提前预测)-> 加工过程 -> 验证/修正

1.2.2.13.3 高级意识可以进行模拟学习过程

C1意识模块 ->

| -> C0意识模块/脑干等模块 -> (?)感觉器官/行动器官(肌肉、骨骼)

-> |

| -> 解释器 -> 记忆储存/更新模型/形成新的预测

大脑的C1意识部分训练神经机器的其他部分(C0意识),建立目标并分配资源。C1意识是长期的计划者,系统的其余部分则学习如何去实现它们。在大脑的逻辑中,如果没有合适的工具,就自己做一个 —— 重新设计自己的神经回路,原本只能靠C1意识笨拙、低效(慢、耗能高)地完成的艰巨任务能够快速而高效地完成。

模拟学习:不通过大量的行动器官的实际训练,只用 C1意识调用C0意识模块模拟过程并形成优化后的固化的神经回路。