进化的罗比,易拉罐清扫机器人

《复杂》梅拉妮·米切尔(Melanie Mitchell)第9章 遗传算法(Genetic Algorithms)

《大图景:论生命的起源、意义和宇宙本身》The Big Picture: On the Origins of Life, Meaning, and the Universe Itself 肖恩 · 卡罗尔(Sean Carroll)第34章 贯穿景观的搜索

遗传算法很好地阐明了演化作为策略发明者的一些有趣特点。其中一个例子是计算机科学家梅拉妮 · 米切尔(Melanie Mitchell)提出的名为罗比(Robby)的虚拟机器人。罗比生活在一个十乘十的二维网格中,它的任务是尽快打扫网格中四处散落的空罐。

1、罗比只能看到它自己所处方格以及相邻的东南西北四个方向的方格上有没有空罐,看不到斜对角及更远的方格。

2、罗比不能保留任何记忆,只能决策面对当前情况下一步做什么。

3、可以做的动作:往东/南/西/北移动、随机移动、不动、收集罐子。

“基准策略”:如果罗比站在一个有空罐的方格上,那么捡起它。否则,看看相邻的四个方格上有没有空罐。如果有一个空罐的话,就沿着相应的方向移动。如果没有的话,就沿着随机方向移动。如果有多于一个空罐的话,就向预先给定的方向移动。基准策略证明了自身可以相当好地完成工作;在大量的测试中,它往往能取得全部分数的69 %。

通过遗传算法人为地让策略进行演化:一开始从数个随机策略出发,让它们运行一段时间,挑选出其中做得最好的。然后将每个生存者复制几份,通过随机更改每个策略在几个特定状态上的规定动作来使每个复制品“产生突变”;可以通过将不同策略分成几份,然后与其他策略粘贴在一起来模拟有性生殖。演化能找到比设计更好的解答。仅仅在250代之后,遗传算法做得就跟基准策略一样好了,而在1000代之后,它几乎能得到全部分数的97 %。

优化后的策略的一些巧妙改进点:如果罗比站在包含空罐的方格上,而东面和西面的方格都包含空罐,基准策略很自然会让罗比捡起空罐,接下来会向东面或者西面移动,这样就会失去对另一个方向空罐的记忆。遗传算法尽管仅仅由随机变化和选择组成,却“理解了这一点”,得到了更好的策略。当罗比处于一行3个空罐的中间时,它不会捡起身处方格上的空罐;它会向东或者向西移动,直到到达这堆空罐的边沿,只有这时它才开始捡起空罐。然后它自然地返回空罐堆中,收集起路上的空罐。

遗传算法专家罗恩(Jason Lohn):“进化算法是探索设计死角的伟大工具。……我们经常发现进化出来的设计完全无法理解。”

从罗比到更复杂的AI策略(如能够战胜世界冠军的AlphaGO使用的复杂战术),都是在机器上实现的算法自动运行的自然结果。每一个神经元、皮质柱、气泡、草稿都可以看作一个更复杂的“罗比”。人类意识是更高层面上的大量算法的自然涌现的结果,通过大脑解释器按照时间顺序解释为“意识”并存储到记忆中。

《大图景:论生命的起源、意义和宇宙本身》第35章 目的涌现而来

在自然主义中,人类和机器人之间的差异并没有那么大。我们都只是一大堆结构复杂的物质,以某种规律运动,在一个拥有时间箭头的环境中遵循着冷冰冰的物理法则。需求、目的和渴望都是在这个过程中自然产生的事物种类