人类赋予现有AI的终极目标:
1、AIGC(“2.2.1.2 AIGC”):生成下一个单词/句子。现有大语言模型(LLMs)的所有活动及成果都是在这个大目标下完成的。
2、AIGCs(“2.2.1.5 下一个AIGC:AIGCs”):生成下一个动作。
下一个可能的生成式AI:AIGL(AI Generated Logic),通过推理空间的学习及搜索,生成下一个逻辑,结合AIGCs实现在现实空间中的规划及行动的闭环,可以作为达到AGI奇点的标志。实现AIGL存在以下约束:
1、可用来学习/训练的数据的有限性。
2、现实世界的未来无法预测 & 哥德尔不完备性定理。
2024-09-13 OpenAI发布o1大模型: 强化学习 (RL) + 思维链(CoT)—— 有点AIGL的意思
RL 的Scaling law
https://weibo.com/1064649941/OwPn2auby
OpenAI o1的做法本质上是COT的自动化。通过COT把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似AlphaGo下棋,形成了巨大的由COT具体步骤构成的树形搜索空间,这里COT的具体步骤的组合空间是巨大的,人写的COT未必最优。如果我们有大量逻辑数据,是由<问题,明确的正确答案>构成,则通过类似AlphaGo的Monte Carlo Tree Search(MCTS)搜索+强化学习,确实是可以训练大模型快速找到通向正确答案的COT路径的。问题越复杂,则这个树的搜索空间越大,搜索复杂度越高,找到正确答案涉及到的COT步骤越多,则模型生成的COT就越复杂,体现在o1的速度越慢,生成的COT Token数越多。很明显,问题越复杂,o1自己生成的隐藏的COT越长,大模型推理成本越高,但效果最重要,成本其实不是问题。
逻辑推理能力最难提升:因为能体现这方面的自然数据(代码、数学题、物理题、科学论文等)在训练数据中比例太低,自然大模型就学不好,尽管通过不断增加数据,能增加逻辑推理方面数据的绝对数量,但因为占比太少,这方面提升的效果和增加的总体数据规模就不成比例,效果也不会太明显,就体现在逻辑推理能力Scaling law看上去的放缓。这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和Post-training阶段,大幅增加逻辑推理数据占比的原因,且是有成效的。
o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤,以此来增强复杂问题的解决能力。OpenAI o1提到关于RL在训练和推理时候的Scaling law,并指出这与预训练时候的Scaling law具有不同特性。很明显,如果o1走的是MCTS搜索技术路线,那么把COT拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好COT路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的RL的Scaling law。
the model to reason and question itself before providing an answer to the user
《OpenAI o1 Explained: Why ChatGPT Decided to Slow Down to Speed Up》
https://www.techopedia.com/news/openai-o1-model-expert-analysis
2.2.1.6.2 Q*的可能架构
http://47.92.147.95/index.php/2023/11/27/921/14/
《o1诞生对下一轮AI爆发的启示:技术远远没有收敛,仍在演进》
– 如何定义推理(reasoning)?o1 是否能够算作 system 2?如果是,它如何实现 system 2 和 system 1 之间的连接?
– o1是否代表大模型领域的研究范式迁移:从训练的 scaling law 走向推理的 scaling law?
https://mp.weixin.qq.com/s/pKJC6lQsF-K6H0eX_iC9WA