2.2.1.5 下一个AIGC:AIGCs

人工智能领域有个“莫拉维克悖论”(Moravec’s Paradox):难的问题简单,简单的问题难。汉斯·莫拉维克:“与一般的观点相反,要让电脑如成人般地下棋相对容易,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。”尽管人工智能可以在围棋上战胜最优秀的人类选手、精确地诊断癌症、流利地写文章/程序代码,数据分析师、翻译、经纪人、作家/画家/作曲家、程序员都要小心他们的位置被取代,但是园丁、接待员和厨师近几年不用担心他们的岗位。

假设在莫拉维克预言的智能机器取代人类的2040年,一家酒店雇用了一个加持了GPT-13(具身智能新成果机器人接入大模型),有全面的多模态感官能力(听说、视觉、触觉等)及机械灵巧性,懂200种语言、武力值为99的机器人保安,让我们看看这个机器人可能遇见的情况:一只小狗尖叫着跑进大堂,喝醉的流浪汉骚扰前台,一位顾客突然中暑,蒙面劫匪持枪闯入,旁边是戴面具拿水枪的孩子……它该如何适当的处理这些不同的对象,以确保酒店的安全和客户的满意度?

2.2.1.5.1 AIGCs(AI Generated Commonsense)

AI必须要能够学习、使用背景知识/常识(Commonsense),才能够在这样的复杂环境中知道如何随机应变。下一个AIGC(Artificial Intelligence Generated Content)是AIGCs:AI生成常识。

《测算与判断:人工智能的终极未来》第三章 失败:老派人工智能的根本局限性

现实本身异常丰富。围绕所谓的现实,任何本体论的解析只提供部分信息。通过抽象化或理想化的表征、描述、模型等方式解释、图示和过滤世界,概念性的“画面”会对某些方面进行强调或特别指出,而对其他方面则是暗示或弱化(甚至是扭曲),并忽略或抽离现实世界潜在的无限丰富性。人工智能面临的问题是,为了在现实世界中发挥作用,它需要能够处理实际意义上的现实,而不是我们所认为的现实,准确地讲,不是我们的思想或语言所表征的现实。

人工智能需要解释对象、属性和关系,并以此来解释各种造物发现世界可理解的能力,而不能预设对象、属性和关系。开发适当的注记能力不仅能够“吸收我们感官所感知到的东西”(这远远不够),而且能够发展出一个对存在于这个世界而言负责任且可靠的完整的集成图景。第一代人工智能的本体论假定、对注记的细微差别视而不见,以及对世界丰富程度的认识不足,是常识方面的表现令人失望的主要原因。

2.2.1.5.2 如何学习常识

常知类似于语言,是不能被理性主义的形式化理论所模拟的。人们在使用语言时,既不是通过严格的规则实现语言的运用,也不是通过严格的规则来学习语言(当然也就谈不上对学习语言的智能活动过程形式化了)。人类对语言的使用往往在语言的灵活应用中找到了语言的美感。AI如何能够学习、使用常识,需要参考ChatGPT如何能够学习、使用语言的(应该不是专家系统、知识图谱的逻辑主义技术路线)。

通过语言模型及其训练过程,ChatGPT“发现”了语法规则这些“语言规律”并很擅长遵循它们。同时能够实现“语义运动定律”——输出有意义的文本,定义或至少约束着语言特征空间中的点在保持“有意义性”的同时如何移动。通过查看大型文本语料库可以得到每个单词的常见程度的估计,ChatGPT 根据概率来选择生成下一个词。ChatGPT只是从其积累的“常识统计”中提取出一些“连贯的文本线索”。在ChatGPT内部,任何一段文本实际上都由一组数字表示,可以看作是某种“语言特征空间”中的一系列点的坐标。当ChatGPT继续一段文本时,相当于在语言特征空间中描绘出一条轨迹。

What Is ChatGPT Doing … and Why Does It Work?》Stephen Wolfram

ChatGPT的底层人工神经网络结构最终是基于对大脑的理想化建模的,能够成功地“捕捉到”人类语言及其背后的思维的本质。语言的丰富性和它所能谈论的事物可以被封装在这样一个有限的系统中。很可能当我们学习和使用常识时,会采用非常相似的方法,例如构成Commonsense的向量空间,从其积累的大量“三维活动统计”中提取出一些“连贯的常识线索”。通过LCM(Large Commonsense Model,大型常识模型)及其训练过程,发现常识的规则及内部蕴含的意义。

2.2.1.5.3 什么时间可以实现

对机器人来说,简单的动作都需要极为复杂的机械控制系统来实现。而现实生活中常见的简单任务,把流程分解成每一个动作,并且要做到“不走形”,“容易”问题层层累加,难度是指数级递增的,是类似于从井字棋到围棋的搜索空间能力要求的提升,需要在图像嵌入设计方法、搜索方法(策略矩阵、价值矩阵)、学习方法(工程技术)、数据来源等方面的根本性的进步。

算力的发展、互联网数据的累积带来这一次(AlphaGo、GPT)的AI浪潮,我们可以在不考虑其他的技术、模型发展/要求,只从算力要求这个基本方面估算一下AIGCs出现的时间。

几个一般性假设:

0.1、假设通过物联网能够积累起丰富的、有质量的常识数据(主要是视频及人体生物信息);

0.2、假设图像/音频/视频嵌入向量空间与文本嵌入向量空间采用相似的算法及模型(视觉大模型的两条出路向量数据库),且AIGCs的搜索算法没有质的发展/变化(统一智能体的基础模型 Towards A Unified Agent with Foundation Models);

0.3、假设机器的灵巧性、机械适应性等方面得到大幅度的发展能够支撑AIGCs;

0.4、假设摩尔定律(每1.5到2年的时间计算能力增长一倍)在未来几十年内仍然有效。

关于算力的假设:

1.1、英语大约有5 万个左右的常用词,假设现实中不同品类对象的种类及其属性的数量对计算复杂度提升一个数量级;

1.2、常识是一个在三维空间发生、发展的,有一定时间范围的过程。图像数据的维度和复杂度都比文本数据高,图像嵌入的计算量要远远大于词嵌入的计算量。假设三维空间的精细运动加上时间过程维度,对计算复杂度提升两个数量级;

1.3、其他未知因素(如对大模型幻觉的控制等)对计算复杂度提升一个数量级;

综上,计算复杂度的提升为:10^4 ≈ 2^14。

AIGCs会在未来14×(1.5~2) ≈ 20~30年左右出现。