“意识”来源于特定类型的信息加工计算,从生理上看,这些计算是由大脑的硬件所实现的。“意识”在大脑中合并成两种不同类型的信息加工进行计算:为总体传播选择信息,从而使其灵活地用于计算和报告(C1,第一感觉上的意识),以及有关自我监控的计算,会导致一种主观上的确定感或错误(C2,第二感觉上的意识)。目前的计算机主要实施的计算,仍然反映的是人脑的无意识加工过程(C0)。C0 C1 C2意识在层级上可以认为是由低到高的。
1.2.2.12.1.1 C0意识
无意识加工 unconscious computation,是指基本的认知功能,如视觉、听觉、语言功能等。一般认为C0层次的功能和意识无关,C0就是某种功能组件/模块,大部分智能都是无意识的,可以被替换但不影响“意识”的存在。潜意识过程可以达到更深的皮质层次。例如,阈下启动(subliminal primes)可以影响任务选择或运动反应抑制中所涉及的认知控制前额机制。决策的神经机制则包括累积感觉证据,以影响各种选择的概率,直到达到阈值。这种概率性知识的积累, 即使在潜意识刺激下也会持续发生。贝叶斯推理和证据累积,是人工智能的基础计算,也是人类基本的无意识机制。
1.2.2.12.1.2 C1 意识
全局可用性 global availability,是指认知系统与特定的思想对象之间的关系,即大脑中已有的信息(整合信息,决定行动,并一路跟随到最后)。C1 意识具有很高的稳定性和全局性——能触发所有相关的大脑回路。那种连贯一致的、经过深思熟虑的计划、支持长期的制胜策略,就需要C1架构。C1意识是存在于人类婴儿和动物中的一种基本属性。
意识与注意力间的关系:威廉 · 詹姆斯曾将注意力形容为“一种以清晰而生动的形式从心灵上占有似乎同时可能存在的几个对象或一连串的思想或思路”。这一定义已很接近于C1的含义:是对进入总体工作空间的单一信息的选择。然而,在最后的步骤,也就是有意识的进入和前注意选择阶段之间有一个明确的区别,即在这个阶段可以无意识地进行操作。
C1 意识能够实现的能力包括:
1.2.2.12.1.3 C2 意识
自我监控 Self-monitoring,认知系统中的一种自我指涉关系(a self-referential relationship),这种关系能够监控自己的加工, 并获得有关自身的信息。人类对自身已经了解了很多,包括诸如身体各器官的布局和位置,他们是否能知道或感知某事,抑或他们是否只是犯了一个错误等各种各样的信息。这种意识通常是与所说的内省introspection相对应,也就是心理学家所说的“元认知”(“meta-cognition”)–即对自己的知识和才能进行内在表征的能力: 对认知的认知或对认识的认识(cognition about cognition or knowing about knowing)。这些自我监控式的算法让我们能够知道自己知道什么不知道什么,会影响记忆和好奇心,能让你在做选择的时候感到自信不足或者信心满满。
C1意识反映了其具有访问外部信息的能力,而第二感觉意义上的意识(C2)则以具有条件反射性地自我表现能力为特征。自我监控是一种基本能力,它在婴儿期就已经存在。面对一个一切仍有待学习和了解的世界,C2机制允许他们积极地定向他们所知和所不知的领域–即一个我们称之为“好奇”的机制。
C1 C2两者对意识来说都必不可少,但两者之间却能够相互独立存在。C1 意识让相关的信息进入我们的精神工作空间(同时抛弃其它“可能的”想法或解决方案),而 C2 意识有助于意识思维能否带来有益反应的长期回射。C1和C2构成了有意识计算的正交维度(orthogonal dimensions)。在经验和概念上,这两者可能也会分开,因为,在没有C2的情况下,还可以有C1,例如,在可报告加工时并没有伴随着准确的元认知;而没有C1的C2, 则是指,在自我监控操作展开时,却没有被有意识地报告。复杂的信息加工可以通过无头脑的自动机来实现(图灵),如人脸识别、语音识别、语句解析和意义提取等,都可以在人类大脑中无意识地发生,既不具有总体可用性,也不具备自我监控。在某种程度上,大脑似乎是将专门的处理器或“模块”并列起来操作。
《比天空更宽广》第3章 大脑组成 埃德尔曼
在大脑活动中还有一组结构对于学习和意识的维持很重要。它们是上行系统,我称之为价值系统,因为它们的活动与对于生存必要的奖惩和响应有关。它们各自有不同的神经递质,以一种扩散的模式从各自的核向神经系统发出轴突。通过扩散性投射,这些价值系统就像喷洒的水龙头一样将神经递质同时释放到一大片神经元。对神经元响应的调节影响到对生存很必要的学习、记忆和身体控制响应。
总体上,大脑有3个主要的神经生理结构。首先是丘脑皮质系统,通过丰富的往返连接将本地和远程的神经元群紧密连接到一起。其次是基底核抑制回路的多突触环状结构。再就是不同价值系统的扩散性上行投射。
《深度学习与围棋》第13章 AlphaGo:全部集结
DeepMind的AlphaGo使用了3个神经网络:
1、快策略网络:这个动作预测网络的目的并不是成为最准确的动作预测器,而是在保证足够好的预测准确率的同时能够非常迅速地做出动作预测。在树搜索中要做到基本可用的程度,推演时必须能够迅速创建大量的网络。
2、强策略网络:这个动作预测网络的优化目标是准确率,而不是速度。它是一个13层卷积网络,其架构比快策略网络的要深很多,而且动作预测的效果比快策略网络好。训练好这个网络之后,就可以把它作为起始点来进行自我对弈,并采用强化学习技术进行改良。这个过程能够让强策略网络变得更加强大。
3、价值网络:是一个16层卷积网络,前12层与强策略网络完全一致。强策略网络进行的自我对弈产生了一个新的数据集,可以用来训练一个价值网络。采用这些棋局的输出来学习一个价值函数。
C0 C1意识可以类比于AlphaGo的策略网络,用于动作预测。快策略网络类比为C0意识,强策略网络类比为C1意识。C2意识可以类比于价值网络。
AlphaGo用下面这4个步骤来构建一棵状态树:
1、选择:选择能够让行动价值与访问计数之和最大化的动作遍历搜索树。
2、扩展:在扩展一个新节点时,计算强策略网络的预测值,将它们存入每个子节点的先验概率中。
3、评估:树搜索的评估结果是以下两个部分的加权和:
1)将棋局输入价值网络中,并直接返回一个获胜率的估计。
2)从这个棋局开始用快策略网络完成一局推演,并观察哪一方获胜。
4、更新:所有模拟结束后,更新模拟遍历过的所有节点的行动价值和访问计数。
选择——扩展——评估——更新的过程也与人脑的学习、预测过程相近似:提取模型(观察/感知/记忆)——比较预测/提前预测——形成更新的模型/加工过程——存储模型/验证、行动(《千脑智能》)。
第一层(C0)为“感觉运动层”(sensorimotor level),处理局部感觉处理和视觉信息分类。
第二层(C1)为“认知层”(cognitive level),调动多个皮层区域,它们之间的整合需要长距离的轴突连接。
第三层(C2)为“意识层”(conscious level),以GNW理论为基础,能够使用类似于认知层的架构来执行跟踪条件反射任务。