让AI来帮助发现新的物理学原理,听起来像是一条捷径。
事实也确实如此,但这条捷径上暗藏了一个科学家们没有预料到的陷阱。普林斯顿大学和弗拉蒂隆研究所的研究团队近日在《宇宙学和天体粒子物理学杂志》上发表研究,揭示了一种叫做"迁移学习"的机器学习技术在宇宙学研究中的双面性:它能将昂贵的计算成本削减十倍以上,但在某些情况下,它也会让AI对"新东西"视而不见。
宇宙学家的日常工作,比大多数人想象的要贵得多。
为了探索超出当前标准宇宙学模型(ΛCDM)的新物理,研究者需要生成大量精密计算机模拟,每一组模拟代表一个基于不同物理假设搭建的"虚拟宇宙",包括大质量中微子效应、修正引力、暗能量演化等。这些模拟极度耗费算力,动辄需要强大的超级计算机跑上数周。
研究团队尝试用迁移学习绕过这一瓶颈。其基本逻辑并不复杂:先让神经网络在相对简单、计算廉价的标准ΛCDM模拟上进行大量预训练,让它充分理解宇宙的"常规运作方式",然后再用少量包含新物理的复杂模拟做进一步微调。
弗拉蒂隆研究所宇宙学家阿德里安·拜尔用一个直白的比喻来解释这个过程:"你先读一本基础教材了解背景知识,再去啃真正复杂的书。"这和人类科学家的学习路径如出一辙,先打基础,再攻难点。
结果令人振奋。在若干测试场景中,迁移学习所需的高成本模拟次数减少了十倍甚至更多,对于算力资源紧张的研究团队而言,这意味着巨大的实际价值。
然而,真正让这项研究引人深思的,不是它的成功,而是它发现的那个隐患。
研究团队将其命名为"负迁移"(negative transfer)。当AI在新物理场景中遭遇的模式,与它预训练时学到的标准模型模式高度相似时,它会倾向于用旧知识的框架去解读新信息,从而系统性地错过真正属于新物理的信号。
这个问题在研究大质量中微子的模拟中暴露得最为清晰。中微子质量对宇宙结构形成的影响方式,与标准模型中的一个参数σ8(衡量宇宙中物质聚集强度的指标)的变化在观测层面极为相似,两者在AI"眼中"几乎长得一样。经过ΛCDM预训练的神经网络,会不由自主地把中微子效应的特征归因于σ8的波动,而非正确识别出这是一种新的物理机制在作用。
研究第一作者、普林斯顿大学本科生维娜·克里希纳拉杰的表述一针见血:"负迁移并非随机现象,而是由模型中潜在的物理相似性所驱动的。"换句话说,不是AI出了技术故障,而是不同的物理过程恰好留下了太相似的宇宙学"指纹",让AI难以分辨。
Gizmodo援引研究团队的分析指出,这一发现揭示了将基础模型技术应用于物理学的一个深层悖论:预训练赋予AI的先验知识,在帮助它更快理解已知领域的同时,也可能在它最需要保持开放姿态的时候关上了感知的大门。
这项研究目前仍处于模拟测试阶段,下一步将尝试将迁移学习框架应用于真实天文观测数据。研究团队认为,随着未来几年新一代巡天望远镜陆续投入运行,届时将产生前所未有的高精度宇宙学数据,迁移学习有望成为处理这一数据洪流的重要工具,前提是负迁移问题得到有效控制。
AI或许正在成为人类探索未知宇宙的强大加速器,但这项研究提醒我们:一个对自己所知过于自信的学生,有时恰恰是最危险的学生。