(来源:网易科技)
分享一篇来自Jamie Lord的非常有洞见关于“学习”的文章
彩票假说解释了为何超大规模神经网络能成功,尽管数百年的统计理论都断言它们应该失败
五年前,如果你建议 AI 研究者去训练万亿参数的神经网络,只会收获同情的目光。因为这违反了机器学习里最基本的一条铁律:模型一旦太大,就会变成高级复印机,只会死记硬背训练数据,而学不到任何有用的东西。
这不只是圈内共识——它还是三百年统计学理论背书的数学定律。几乎每本教材都画着同一条不可逆转的曲线:小模型欠拟合,合适规模的模型能泛化,大模型则灾难性过拟合。故事到此为止。
可如今,那些当年被认为不可能的超大模型却在驱动 ChatGPT、解析蛋白质,并引发了价值数千亿美元的全球军备竞赛。改变的不仅是算力,更是我们对学习本身的理解。这个转变背后的故事,揭示了 AI 领域最大的突破如何诞生于敢于忽视本领域基本假设的研究者。
统治机器学习的铁律
三百多年来,所有学习系统都受同一原则支配:偏差—方差权衡。数学优雅,逻辑无懈可击:模型太简单,会错过关键模式;模型太复杂,则会去记住噪声而不是信号。
想象一个学生在学加法。给 TA 成千上万道带答案的题,他可能有两种学法:更聪明的那种,是掌握进位与位值的底层算法;更愚笨的那种,是把每一道题连同答案全背下来。第二种方法能让作业满分,但一到考试就彻底崩盘。
神经网络看起来尤其容易掉进死记硬背的陷阱。它们有数以百万计的参数,完全可以把整个数据集装进脑子。传统理论预言,这类过参数化网络会像那个死记硬背的学生一样——训练集上完美无瑕,遇到新样本就一塌糊涂。
这种理解塑造了整个领域的研究路径。研究者们对模型结构技巧、正则化技术、各种数学约束孜孜以求,只为从小而受控的模型里挤出更多性能。把模型做大,被视为烧钱的愚蠢。
领域里最受尊敬的声音不断强化这种正统观。更大的模型只会过拟合,成了口头禅。会议论文聚焦于效率而非规模。单纯靠多堆点参数就能解决问题?在学术圈几乎算是异端邪说。
打破规则的异端
2019 年,一群研究者犯了最大之罪:他们无视警告,继续把模型做大。即便在网络已经把训练集学到100% 准确的节点——理论在此高喊危险!——他们仍继续把规模推向禁区。
接下来发生的事,撼动了三百年的学习理论。模型并没有崩溃。相反,在它们看似开始记忆训练数据的短暂低谷之后,性能竟然再次显著提升。
这个现象被命名为双降(double descent)——误差先按预期随过拟合上升,然后又意外地第二次下降,仿佛超越了过拟合。提出并系统化记录这一发现的 Mikhail Belkin 及其同事指出,这与基于偏差—方差分析的传统智慧相矛盾。
影响迅速在 AI 研究界扩散。OpenAI 随后的工作显示,这种收益可以跨越多个数量级地延续。更大的模型不只是装了更多事实,它们还会涌现出质变的能力,比如仅凭少量示例就能学会一项任务。
全行业很快掉头。Google、Microsoft、Meta 和 OpenAI 砸下数十亿美元,打造更大的模型。GPT 系列从 1.17 亿参数一路跃迁到 1750 亿。曾被理论禁止的越大越好学说,成了产业的北极星。
但一个问题,仍在每位研究者心头挥之不去:为什么这套东西能奏效?
拯救学习理论的彩票
答案来自一个出人意料的角落:关于神经网络彩票的研究。2018 年,MIT 的 Jonathan Frankle 与 Michael Carbin 在研究剪枝——即训练后移除不必要的权重。他们的发现,给做大为何有效提供了优雅的解释。
在每个大网络里,都潜伏着中奖票——一些微小的子网络,它们能达到与完整网络相当的表现。研究者甚至可以删掉96% 的参数而不损失准确率。也就是说,绝大多数成功网络里的重量,其实都是冗余的。
但关键在于:这些中奖子网只有在保留其最初的随机初始化权重时才能成功。只要把初始值换掉,即便结构相同,也会彻底失效。
由此,彩票假说(Lottery Ticket Hypothesis)逐渐清晰:大网络之所以成功,并非在学习更复杂的解,而是因为它给了我们更多找到简单解的机会。每一组权重就是一张彩票——一次去碰到优雅解的随机尝试。大部分都是废票,但当你有了亿万张彩票,中头奖就变得几乎必然。
在训练过程中,网络并不是在寻找完美结构——完美结构本就嵌在庞大的参数空间里,以无数不同初始化的微型网络形式存在。训练更像是一场超大规模摇奖:那些起点更好的小网络会在学习中胜出,而数以十亿计的其它候选悄然退场。
这套认识,把经验上的成功与经典理论调和了:大模型不是在死记硬背,而是在辽阔的参数空间中找到更简洁的解。奥卡姆剃刀并未失效——最简单的解释仍然最好;只是规模成了更高效地搜寻简单性的工具。
智能真正长什么样
这层含义超越了人工智能。如果学习意味着寻找能解释数据的最简模型,而更大的搜索空间又能更容易地找到这些简单解,那么我们对智能的框架也会被重塑。
想想你的大脑:860 亿个神经元、万亿级连接,按任何口径都极度过参数化。但你能少样本学习,且具备强泛化。彩票假说暗示,这种神经冗余与大模型的参数冗余异曲同工——都是为了给任何问题提供海量潜在的简单解。
智能不是记住信息,而是捕捉能解释复杂现象的优雅模式。规模提供的不是存储复杂解的仓库,而是搜索简单解的空间。
这次发现也照亮了科学进步的路径。几十年里,研究者因理论认为行不通而避免扩展规模。真正的突破,来自拿实验去拷问假设。这在科学史上屡见不鲜:大陆漂移学说曾被嘲笑,直到板块构造提供了机制;量子力学看似荒诞,直到实验证据压倒一切。最重要的发现,常常诞生于越界试探。
同时,彩票假说并没有推翻经典学习理论——它只是揭示了这些原则比我们想象的运作得更精巧。简单解仍是最优,只是我们找它的方式更好了。
对 AI 工程而言,这既指向希望也提示边界:规模有效,是因为更大的模型意味着更多彩票,更有可能找到近最优解。但这也暗含报酬递减:当网络越来越擅长锁定极简解,继续增大规模的收益会越来越小。
这与一些专家对当前范式的担忧相呼应。Yann LeCun 认为,架构上的根本约束可能会让语言模型即使无限扩展,也难以获得真正理解。彩票机制一方面解释了当下的成功,另一方面也为未来的挑战埋下伏笔。
优雅的惊喜
这场意外引发的 AI 革命,给我们留下了朴素而深刻的教训:当你敢于试探共识的边界,世界常会给出优雅的惊喜。很多时候,最深的洞见并不是推翻旧原则,而是发现它们在更精妙的层面上运作。
演化本身也是如此:在广袤的基因可能性空间中搜索,以找到优雅而高效的生存之道。最成功的物种,不一定最复杂,而是适配得最有效。
看似对学习理论的危机,最终成为它的胜利。偏差—方差权衡依旧成立,我们只是明白了它的机制比想象中更微妙。大模型之所以成功,不是因为它们破了规则,而是因为它们在更高的层面遵循了这些规则。
那些敢于把规模推到理论舒适圈之外的研究者,不仅推进了 AI,更提醒我们:在一个以数学确定性为傲的领域里,最重要的发现,可能恰恰来自拥抱不确定性。
1. 文中的三百年是指现代偏差—方差思想的数学底层而非当代术语本身。Bayes 定理(1763)为以证据更新信念提供了框架;Laplace 在 18~19 世纪早期的统计推断工作,奠定了在拟合与简洁之间保持平衡以避免伪结论的原则。这些早期洞见——即过度复杂的解释往往抓到的是噪声而非信号——构成了今天所谓偏差—方差权衡的数学基座。现代形式在 20 世纪下半叶逐步成型,但其核心原则已主宰统计推理数百年。 ↩︎
关于作者
Jamie Lord 关注那些与常识相背的尴尬现实,研究系统实际如何运作与教科书如何描述之间的差异。他以证据为先,即便结论不方便,也坚持认为:制度理应服务于人与我们共同的星球
(原文:《How AI researchers accidentally discovered that everything they thought about learning was wrong》)
https://nearlyright.com/how-ai-researchers-accidentally-discovered-that-everything-they-thought-about-learning-was-wrong/
杨方线上配资股票,风琴配资,网络炒股杠杆平台提示:文章来自网络,不代表本站观点。