2.2.1.3.4 涌现

《Sparks of Artificial General Intelligence: Early experiments with GPT-4》

中文

到底发生了什么?What is actually happening?

对 GPT-4 的研究完全是现象学的:研究者们专注于 GPT-4 可以做的令人惊讶的事情,但没有解决它为什么以及如何获得如此惊人的智能这一基本问题。它是如何推理、计划和创造的?当它的核心仅仅是简单的算法组件——梯度下降,和具有极其大量数据的大型 Transformer,为什么它表现出如此普遍而灵活的智能?  它挑战了大家对学习和认知的理解,激发了大家的好奇心,并激发了更深入的研究,而一个关键的研究方向就是对于 LLM 涌现机制的探索。

然而,尽管人们对 LLM 的能力问题产生了浓厚的兴趣,但迄今为止的进展非常有限。一个普遍的假设是大量的数据(特别是内容的多样性)迫使神经网络学习通用的和有用的「神经环路」,而大尺寸的模型为神经环路提供了足够的冗余和多样性,以支持专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战,而且,几乎可以肯定的是,猜想只是答案的一部分。从另一个角度来看,模型的巨大规模可能会带来其他一些好处,例如通过连接不同的最小值或简单地实现高维数据的平滑拟合,从而使梯度下降更加有效。总的来说,阐明 GPT-4 等人工智能系统的性质和机制是一项艰巨的挑战。


是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象

当我们不断加大模型规模时,大语言模型表现出:

  1. 大语言模型从海量自由文本中学习了大量知识,并且是在不断积累的。在知识密集型任务上,随着模型规模增长而带来的效果提升,还没有看到尽头,这也意味着只要我们不断扩大,AI处理这类任务的能力还会提升。
  2. 涌现出新能力。
大语言模型的涌现现象,在一定规模后迅速涌现出新能力
图片来源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models

第一类上下文学习ICL(In Context Learning,2022年初正式提出)。ICL的关键思想是不对模型参数进行调整,而是给大模型几个示例,AI就可以从类比中学习。论文:OpenAI《Language Models are Few-Shot Learners》https://arxiv.org/pdf/2005.14165.pdf;华盛顿大学、Meta、Allen Institute for AI《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》https://arxiv.org/pdf/2202.12837.pdf

第二类思维链CoT(Chain of Thought)是大语言模型推理能力的重要来源之一。论文Google Brain团队Chain of thought prompting elicits reasoning in large language modelshttps://arxiv.org/pdf/2201.11903.pdf

目前涌现仍然是黑箱,我们对能力涌现的机制与方向还所知甚少。

针对涌现最核心的论文是以下两篇:

Google+DeepMind+Stanford等《Emergent Abilities of Large Language Models》(大语言模型的涌现能力)https://openreview.net/pdf?id=yzkSU5zdwD

UCLA 3位教授《Emergent Analogical Reasoning in Large Language Models》(类比推理能力在大语言模型中的涌现)https://arxiv.org/pdf/2212.09196.pdf


从 AlphaGo 到 GPT,注定坎坷的通用人工智能之路

OpenAI 推测,涌现也许是一种类似进化的机制。Ilya Sutskever的论文《学习生成评论并发现情感》中提到,当给了足够的模型容量、训练数据和计算时间后,GPT 大模型内部自行产生了一个情感分析功能单元,能准确辨别文字是在表达喜悦、悲伤还是愤怒。(类似于《AI3.0》“机器“观察”到的东西有时与我们截然不同”:网络学会的是将具有模糊背景的图像分到“包含动物”这一类别,无论该图像是否真的包含一只动物。

论文认为,这有可能是因为能辨别情感色彩,对 GPT 更好完成其目标,即预测下一个词有很大帮助。就像人类为了生存繁衍这个单一目标,进化出了复杂的生理特征和文化习俗,那些更适宜生存、让种群扩大的特点会被保留,涌现可能就是这样一个类似自然选择的进化过程。而进化的另一面是失控能进化的东西,本身不会是完全可控和可以提前设计的进化不光创造新技能,也可能创造出幻觉。学会使用一个正在快速进化的黑箱工具,是人类以前没遇到过的课题。我们需要在接受、理解和适应失控的前提下,寻找可控的部分,避免商业风险和更大的风险。

一个有关“2.2.1.3.4 涌现”的想法

发表回复

您的电子邮箱地址不会被公开。