1、《大语言模型无法实现具身智能的根本原因》Generating meaning: active inference and the scope and limits of passive AI
https://mp.weixin.qq.com/s/brSGlBFfDXIhmHtXydK3hQ
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(23)00260-7?dgcid=raven_jbs_etoc_email
我们对语言符号含义的掌握并非源于我们处理自然语言的能力,而是源于我们通过采样和互动而积累的对生活世界的更基础的理解。想象一种外星生命形式,它与某些潜在现实的唯一联系是通过大量的文字:与隐藏的现实(我们的人类世界充满了猫、牧师、经济萧条、LLMs、选举等等)有着真实但复杂且有时不精确关系的物品。将这个存在对文字流的访问本身视为一种形态,一种感觉通道。外星人发现自己被迫尝试预测感官流中的下一个项目,推断出使其能够出色地完成这项工作的潜在模式。
对感知行为的著名描述将大脑描述为有机体与世界相互作用的生成模型,这与生成人工智能的当前进展表现出有趣的相似之处。然而,由于它们与有目的的、维持生命的感觉运动相互作用的控制作斗争,生物体的生成模型与身体和世界密不可分。与生成式人工智能学习的被动模型不同,它们必须捕捉并控制行动的感官后果。这使得实体主体能够以不断测试其最佳模型的方式干预他们的世界;这提供了坚实的基石,对于发展真正的理解至关重要。
• 我们通过将生成式人工智能与我们目前对生物体(被视为主动推理系统)的理解进行比较来讨论生成式人工智能的基础。
• 生成式人工智能和主动推理都基于生成模型,但它们以根本不同的方式获取和使用它们。生物体和主动推理主体通过与环境进行有目的的交互并通过预测这些交互来学习它们的生成模型。这为他们提供了核心理解和重要感,这是他们后续知识的基础。
• 生成人工智能领域越来越多地朝着多模态和具身化的方向发展。虽然可以通过预测视频以及耦合控制和语言输入来学习很多东西,但其后的智能体将无法控制他们的感觉运动体验,也无法与环境进行有目的的交流,无法进行有用的干预来支撑我们对事物的因果理解。未来的生成式人工智能可能会遵循相同的(仿生)方法,并在被动训练之前(或代替被动训练)学习与世界的具体接触中隐含的可供性。
“新生儿要做的第一件也是最基本的事情是什么?如果一个人认同自由能原理,那么它唯一要做的就是解决其外感受、本体感受和内感受的原因的不确定性。对沉浸在环境中的有知觉生物的感觉的解释必须区分自我(生物)和非自我(环境)。结构学习的首要任务是区分可以归因于自我的感觉的原因和那些不能归因于自我的感觉的原因。”——Karl Friston
2、《为什么用当前的数学构建不了真实的世界模型》
https://mp.weixin.qq.com/s/r0RRMZ_NZnRghHFHgEVILw
一个真实的世界模型应该是一个完整而准确的描述现实世界的模型,它应该包括了所有基本的组成部分和相互作用,能够准确地反映真实世界的各种现象和规律。这样的世界模型应该是基于大量的观察、实验和数据分析而建立的,能够预测和解释真实世界中的各种现象和事件。一个真实的世界模型应该是动态的,能够随着新的观察和实验数据的不断积累而不断完善和修正。它也应该是综合的,能够充分考虑不同领域和学科的知识和观点,以便更全面地理解和解释现实世界的复杂性。最重要的是,一个真实的世界模型应该是可靠和可验证的,它的预测和解释应该能够得到经验证实验的支持,能够被多个独立的研究团队不断重复和证实。
真实的世界模型应该包括:
– 物质实体
– 空间
– 时间
– 功能和行为
– 社会关系
– 观点和信念
当前的数学是一种抽象的工具,用于描述和解决各种现实世界中的问题。然而,由于现实世界是非常复杂和多变的,数学模型往往只能提供一种理想化的简化描述,而无法完全还原真实世界的复杂性和多样性。另外,数学模型的构建也受到数据的限制和误差的影响,因此无法完全准确地捕捉真实世界中的各种因素和变化。此外,真实世界还包括了许多非线性、非确定性、不可预测的因素,这些因素在数学模型中往往难以准确描述和模拟。因此,尽管数学在建立模型和解决问题方面具有强大的能力,但对于真实世界的复杂性和多样性,目前的数学工具还无法完全捕捉和表达。
3、《世界模型的基础:抽象与客体永恒性》 Above and beyond the concrete: The diverse representational substrates of the predictive brain
https://mp.weixin.qq.com/s/jhoGiEeaqos8Ar66cTVCpQ
https://cuhigginslab.com/wp-content/papercite-data/pdf/rossignac-milonetal2020a.pdf
《No, Today’s AI Isn’t Sentient. Here’s How We Know》
李飞飞、斯坦福大学HAI联合主任John Etchemendy 2024/5/23
https://time.com/collection/time100-voices/6980134/ai-llm-not-sentient/
LLM并不具备真正的意识或感知能力:
– 多位神经科学家和哲学家认为,意识不仅仅是信息的处理,还涉及到生物体对于自我、他者以及外部世界的感知。而大型语言模型虽然能够处理信息,但它们并不具备这种感知能力。
– 模型与生物体的区别:生物体的大脑是一个复杂的神经网络,具有自我修复和适应环境的能力。而大型语言模型则是基于算法和数据的计算系统,缺乏生物体所拥有的特性。
– 将大型语言模型视为具有意识或感知能力的潜在风险。如果人们错误地认为这些模型具有意识,可能会导致对它们的不当使用或滥用。
Can Language Models Serve as Text-Based World Simulators?
当前语言模型本身是否可以充当世界模拟器,并正确预测动作如何改变不同的世界状态,从而避免大量手动编码的需要呢?
ACL 2024 论文《Can Language Models Serve as Text-Based World Simulators?》认为,语言模型并不能作为世界模拟器使用。比如,GPT-4 在模拟基于常识任务(如烧开水)的状态变化时,准确率仅为约 60%。人类在 LLM-Sim 任务中的表现优于 GPT-4,人类的整体准确率为 80%,而采样的 LLM 的准确率为 50%。GPT-4 在需要算术、常识或科学知识时更容易出错。
https://arxiv.org/pdf/2406.06485
https://mp.weixin.qq.com/s/FBqYb_gcBr5D204mDtmCOA
《Language is primarily a tool for communication rather than thought》
https://www.nature.com/articles/s41586-024-07522-w
语言≠思维,大模型学不了推理
人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的。
https://mp.weixin.qq.com/s/BgMNITn5e1RGUOHQLKv7yg
塔南鲍姆(Joshua Tenenbaum)《Dissociating Language and Thought in Large Language Models: A Cognitive Perspective 分离语言与思维》
把语言能力分为形式能力(formal competence)和功能能力(functional competence),大语言模型解决了形式能力,而没有解决功能能力,所以思维不等于语言。
https://mp.weixin.qq.com/s/iRR2ct_3Wz0USoEVLWNpRA 《乔姆斯基 vs ChatGPT》