1. 首页 > 教育视窗

Andrej Karpathy 回应萨顿的《苦涩的教训》,最后一段说的很好

终于有机会听完这期与萨顿的播客,内容既有趣又令人深思。


作为背景,萨顿的《苦涩的教训》在前沿大语言模型圈子里几乎已成为圣经般的文本。研究人员经常讨论和询问这种或那种方法或想法是否足够"吃苦药丸"——意思是其设计能否从免费增加的计算中受益——以此作为判断该方法是否有效或值得追求的代理标准。其潜在假设是,大语言模型当然非常"吃苦药丸",看看大语言模型的缩放定律就知道了:只要把计算量放在x轴上,指标数字就会向右上方增长。所以,看到这篇文章的作者萨顿本人并不那么确定大语言模型是否真的"吃苦药丸",是很有趣的。它们是在根本上属于人类数据的庞大数据集上训练的,这些数据既是1) 人类生成的,又是2) 有限的。用完了怎么办?如何防止人类偏见?于是,情况就是这样,"吃苦药丸"的大语言模型研究人员被"苦涩的教训"的作者本人"打脸"了——够呛!


在某种意义上,德瓦克什(在播客中代表大语言模型研究者的观点)和萨顿有点像是在各说各话,因为萨顿心目中设想的是一个非常不同的架构,而大语言模型打破了他的许多原则。他自称"古典主义者",并援引了艾伦·图灵最初的概念,即构建一个"儿童机器"——一个能够通过动态与世界互动、从经验中学习的系统。没有模仿互联网网页的大型预训练阶段。也没有监督微调,他指出这在动物界是不存在的(这是一个微妙的点,但萨顿在严格意义上是正确的:动物当然可以观察示范,但它们的行动并不会被其他动物直接强制/"远程操控")。他提出的另一个重要观点是,即使你只把预训练看作在通过强化学习进行微调之前的一个先验初始化,萨顿也认为这种方法沾染了人类偏见,从根本上就走偏了,有点像从未见过人类围棋棋局的AlphaZero击败了从人类棋局初始化的AlphaGo。在萨顿的世界观里,存在的全部就是通过强化学习与世界互动,其中奖励函数部分与环境相关,但也由内在动机驱动,例如"乐趣"、"好奇心",并与你的世界模型中的预测质量有关。而且智能体默认在测试时也始终在学习,并非训练一次然后部署。总的来说,萨顿对我们与动物界的共同点更感兴趣,而不是我们的差异。"如果我们能理解一只松鼠,我们就几乎大功告成了。"


至于我的看法……


首先,我得说,我认为萨顿是播客的一位很好的嘉宾,我也喜欢AI领域保持思想的熵,并非所有人都在一味地开发下一代局部迭代的大语言模型。AI已经经历了太多主导方法的离散转变,不能失去这一点。同时,我认为他对大语言模型不够"吃苦药丸"的批评也并非没有道理。前沿的大语言模型如今是高度复杂的人工产物,在各个环节都充满了"人性"的参与——基础(预训练数据)全是人类文本,微调数据是人类制作和策划的,强化学习的环境混合是由人类工程师调整的。我们实际上并没有一个真正的、单一的、干净的、真正"吃苦药丸"的、"转动曲柄"就能自动从经验中学习的算法。


这样的算法真的存在吗?找到它当然会是AI领域的一个巨大突破。通常有两个"示例证明"被用来论证这种可能性。第一个例子是AlphaZero的成功,它在没有任何人类监督的情况下,完全从零开始学习下围棋。但围棋显然是一个如此简单、封闭的环境,很难想象在混乱的现实世界中能有类似的设定。我喜欢围棋,但从算法和分类学上讲,它本质上是一个更难版本的井字棋。第二个例子是动物,比如松鼠。在这方面,我个人也相当犹豫这是否恰当,因为动物的产生是通过一个与我们工业界实际可用的、非常不同的计算过程和不同的约束条件实现的。动物的大脑远非出生时看起来的白板一块。首先,很多通常归因于"学习"的东西,在我看来更多是"成熟"。其次,即使是那些明确是"学习"而非成熟的部分,也更多是在某种明显强大且预先存在的基础上的"微调"。例如,一只小斑马出生后,几十分钟内就能在稀树草原上奔跑并跟随母亲。这是一个高度复杂的感官运动任务,在我看来,这绝不可能是从零开始、白板一块地实现的。动物的大脑及其内部的数十亿参数,拥有一个由DNA中的ATCG编码的强大初始化,这是在进化过程中通过"外循环"优化训练出来的。如果小斑马像强化学习策略在初始化时那样随机痉挛肌肉,它根本活不下去。类似地,我们现在的AI也拥有数十亿参数的神经网络。这些参数需要它们自己丰富的、高信息密度的监督信号。我们不会重新运行进化过程。但我们确实有海量的互联网文档。是的,这基本上就是动物界几乎不存在的监督学习。但这是一种实际的方法,用来在数十亿参数上收集足够的软约束,试图达到一个并非从零开始的起点。长话短说:预训练是我们拙劣的进化。 它是解决冷启动问题的一种候选方案,之后会在看起来更正确的任务上进行微调,例如在强化学习框架内,正如现在前沿大语言模型实验室普遍做的那样。


我仍然认为值得从动物身上汲取灵感。我认为大语言模型智能体在算法上缺失了多种来自动物智能的强大思想,这些思想仍然可以被借鉴。我也仍然认为"苦涩的教训"是正确的,但我更多地把它看作是我们现实世界中、实际意义上应去追求的某种柏拉图式理想,而非必然要达到的状态。我说这两点时,内心都有两位数的百分比不确定性,并且我为那些持不同意见、尤其是在"苦涩的教训"方面更有雄心的人的工作喝彩。


这就将我们带到了当下的处境。直白地说,今天的前沿大语言模型研究并非关于构建动物。它是关于召唤幽灵。你可以把幽灵看作可能智能空间中的一种根本不同的点。它们被人性所混淆。被人性彻底地工程化。它们是这些不完美的复制品,一种人类文档的统计蒸馏物,加上一点额外的点缀。它们并非柏拉图意义上地"吃苦药丸",但也许是"实践上"的"吃苦药丸",至少与之前的许多方法相比是如此。在我看来,有可能随着时间的推移,我们可以进一步将我们的幽灵在动物的方向上微调得越来越多;这并非根本性的不兼容,而是智能空间中初始化点的问题。但也很有可能它们会进一步分化,最终永久不同,不像动物,但仍然极其有用并能真正改变世界。有可能幽灵:动物 = 飞机:鸟类。


总之,总的来说并且具有指导意义的是,我认为这期播客是萨顿对前沿大语言模型研究者的扎实"大实话",这些研究者可能有点过于偏向"利用"模式了。很可能我们仍然没有足够地"吃苦药丸",并且极有可能存在比穷尽地建造基准和刷榜更强大的想法和范式。动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化。发挥你的想象力。


本文链接:https://www.19150.com/cul/22072.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息