我们很高兴推出新系列访谈,与顶尖研究者一起探讨驱动AI的突破以及未来承诺的现实——为您提供新闻头条背后的内部视角。我们的第一位受访者是Ross King,他于2009年创造了第一个机器人科学家。他向我们讲述了科学发现的本质、AI应扮演的角色,以及他近期在DNA计算方面的工作。
自动化科学是一个非常令人兴奋的领域,感觉现在每个人都在谈论它——例如AlphaFold获得了2024年诺贝尔奖。但您在这一领域已经工作了很多年。2009年,您开发了Adam,这是第一个能够产生新科学知识的机器人科学家。能详细谈谈吗?
历史可以追溯到Adam之前。上世纪90年代末,我结束了在某癌症研究基金(现为某健康研究机构)的博士后工作,在某个大学获得了第一份学术职位。在那里我产生了尝试自动化科学研究的最初想法。
我们关于这一主题的第一篇论文发表于2004年,刊登在某顶级期刊上,是关于机器人科学家的。我们展示了科学方法中的不同步骤——形成假设、确定实验来检验假设、分析结果——都可以单独自动化。但整个循环尚未完全自动化,当时AI系统也没有做出任何新颖的科学发现。
2009年,我们构建了Adam系统。Adam是一个(物理上)大型的实验室自动化系统,结合了能够完成完整科学研究循环的AI,并且具备关于酵母功能基因组学的知识。Adam假设并实验证实了关于酵母代谢的新科学知识,我们在实验室中手动验证了这些发现。
从那以后,该领域如何发展?
很多年间,进展不大。由于金融危机,资助变得困难,这使得某国的研究理事会变得更加保守。在那段时期之前,评审小组会选择最激动人心的科学项目。之后,他们更关注哪些项目能在短期内给某国带来经济收益。
我们很多年未能获得资助,其他人也鲜有兴趣。符号回归方面有一些工作——找到可解释的数学模型来拟合现象——但科学自动化的工作不多。改变这一状况的是AI的全面崛起。随着AI变得越来越重要,人们的兴趣也随之增加,尤其是在2017年之后。
AI科学家的潜在利弊是什么?
我先说宏观层面:我认为科学对人类社会是积极的。我们21世纪的生活比17世纪现代科学开始时的国王和王后要好得多。我们能吃到来自世界各地的更好的食物,早餐有美味的水果,医疗保健也大大改善——17世纪的牙医可不好受。我的手机可以一键与数十亿人通信,我可以飞往世界各地。这是数十亿人(不仅仅是精英阶层)难以置信的高生活水平。科学技术应用带来了这一切。当然也有弊端——污染、环境破坏——但总体来说,我认为人类的生活比17世纪更好了。
然而,我们仍然面临巨大的问题。我们无法阻止全球变暖或许多疾病,仍有十亿人面临粮食不安全。我认为,如果世界各国合作并共享资源,我们有足够的技术来解决这些问题。但我看不到在当前世界局势下实现这一点的前景,历史上也找不到任何先例。所以我唯一的希望是科学变得更加高效。如果AI能帮助实现这一点,那么我们或许能够克服这些挑战。如果我们有了更好的技术之后却对人不好,那就不怪世界的限制,而是人类自身的问题了。
至于将AI科学家作为同事:AI系统不理解全局。它们做不了真正聪明的事情,比如爱因斯坦将空间和时间视为一个四维连续统而非完全分离的东西。如果你读爱因斯坦1905年的论文,它以关于电和磁的哲学问题开头——AI系统远没有那么聪明,无法做到类似的事情。它们看不到深层的类比或联系,但它们在科学的其他方面非常出色。它们真的可以阅读一切——它们已经把世界上的每一篇论文读了1000遍。如果你有少量数据,机器学习系统能比人类分析得更好。从这个意义上说,它们拥有超人的能力。
现在一个有趣的事情是,如果你是一位在职科学家,在几乎所有领域里不使用AI,你将不再具有竞争力。AI本身还没有比人类更好——但人类加AI比单独的人类更好。人类科学家需要拥抱AI,用它来做更好的科学。
您认为我们会达到自主AI能够生成研究问题并引导研究方向的地步吗?
是的,我认为会,尽管目前还远未达到。AI能在受限空间中产生新想法,通常比人类更好,但它们还没有真正掌握全局。
我认为这迟早会实现。我参与了一个名为“某诺贝尔图灵挑战”的项目。目标是到2050年构建一个能够达到诺贝尔奖级别自主科学能力的AI机器人系统。如果能做到这一点,我们就可以建造两台、一百台、一百万台机器——从而改变社会。
您认为到2050年可行吗?
就在疫情之前和疫情期间,我认为实现这一目标的概率在下降。但后来大语言模型取得了突破,它们在很多方面都令人惊叹——也常常非常愚蠢,但总体很聪明。我认为仅凭它们不足以赢得“某诺贝尔图灵挑战”,但我认为它们使得实现该目标的概率大大增加。
有趣的是(我不知道答案)——是否需要先解决通用AI才能解决科学问题,还是它更像国际象棋,你可以建造一台特化机器,在国际象棋上是天才,但其他方面不行。想象一台在物理上是天才但对诗歌或历史一无所知的机器。这足够吗?
我的直觉是这不够,因为一切都是相互关联的——诗歌有节奏,音乐包含数学结构。我认为AI科学家需要对其领域之外的真实世界有更广泛的理解。
人们过去认为解决国际象棋需要这些东西,所以人类的直觉在这类事情上并不很好。例如,我没有预料到仅通过构建更大的网络和输入更多数据,LLM就能工作得这么好。我以为它们需要某种深层的世界内部模型,甚至需要具身才能真正理解事物如何在世界中运动。
LLM提出了一些有趣的问题——它们只是在模仿智能吗,因为它们缺乏内部模型?
我认为AI在某种意义上必须有某种内部模型。只是我们并不真正理解它们为什么有效。这纯粹是经验性的,非常不寻常。我不记得有过如此重要的技术,而我们对它的理解却如此之少。
这确实相当神秘。尤其因为科学总是在问“机制是什么?”而AI正好相反。问题是“它有效吗?”我们不知道机制是什么。
甚至连解释它的理论都不清楚。我来自机器学习背景,曾以为会是某种贝叶斯推断之类的东西。但数学家说不,这完全与某个高维空间中的函数映射有关。这两者似乎并不相同,因此我们甚至不清楚应该用什么框架来解释它。
而且,高维空间中的映射在根本上不是人类凭直觉能理解的。
是的,所以这是一个谜。为什么它们表现这么好?为什么在这么多参数下不会过拟合?它们是如何得出合理答案的?一般来说,理解它们为什么犯错很容易,但理解它们为什么实际效果这么好就没那么容易了。
您能谈谈您在DNA计算方面的工作,以及它与自动化科学的关联吗?
在自动化科学中,我们使用计算机科学来理解例如生物学或化学。在DNA计算中,我们使用生物学和化学的技术来改进计算机科学。使用DNA,你有可能获得比电子学高出许多数量级的计算密度。这是因为DNA中的碱基大小与最小晶体管大致相同,但你可以在三维空间中堆积DNA,而晶体管只能位于二维平面。在我们设计的DNA中,每条DNA链都是一台微型计算机。
DNA的妙处在于它可以自我复制——自然界已经找到了非常有效的复制DNA的方法。这就是我们人类以及所有动物、植物和细菌复制的方式,而电子计算机不会自我复制——它们是在耗资数十亿的工厂里制造的。我们可以利用自然赋予我们的这项美妙技术。
DNA计算机是如何工作的?
有史以来最伟大的发现之一是Alan Turing发现(或发明)了通用图灵机的概念。这是一个抽象的数学对象,本质上可以计算任何其他计算机能计算的任何东西。你无法制造出更强大的计算机,能够计算那台通用图灵机计算不了的函数。
有很多不同的物理方式来实现通用图灵机。最常见的是建造一台电子计算机。但原则上,你也可以用锡罐造一个图灵机——唯一的区别是速度和内存大小。你的计算机能做多任务是因为它可以被编程。
用DNA能做到的美妙之处是制造一台非确定性通用图灵机。这些机器计算与普通通用图灵机相同的函数,但速度是指数级更快——每当程序中出现决策点时,它不必只探索一条路径,而是可以同时走两条路。因此你可以制造一台计算机,像生物体(比如兔子)一样,不断复制、复制、复制,直到我们解决问题或空间耗尽。这时空间成为限制因素,而不是时间。
可以想象,如果你想搜索一棵树来寻找某样东西,你可以并行地铺开所有分支,而普通计算机一次只能沿着一个分支向下走。如果对DNA计算进行估算,在桌面上你可以拥有比地球上所有电子计算机加起来还要多的内存和计算能力,这看起来不可思议。这仅仅是因为计算密度高。
那将是一个不可思议的规模扩展——就像现代智能手机比60年代某机构的超级计算机强大得多一样。但计算能力不再像过去那样快速提升了。
是的。计算机不再像过去几十年那样持续提升(摩尔定律)。这就是为什么那些大型科技公司正在建造曼哈顿大小(或者很快可能是得克萨斯大小)的大型计算农场。世界确实需要更高效的计算方式。
如果我们拥有大量的计算能力,您认为AI赋能的科学最适合应用于哪些科学问题或领域?有没有容易摘取的果实?
非常重要的一点是将AI系统与实际的实验和实验室结合起来。你不能光靠思考科学就得到正确答案。我们需要实际进入实验室测试事物,但很多AI从业者和AI公司并不真正理解这一点。他们在AI加模拟的科学中取得了巨大成功,以至于没有意识到模拟的好坏取决于其可测试性。
容易摘取果实的领域包括材料科学,因为我们需要更好的电池材料、更好的太阳能电池板等等。现在那里有点像淘金热,许多初创公司获得了极高的估值。
另一个在某种意义上更容易的自动化领域是药物设计,因为移动液体比移动固相材料容易得多。闭环自动化已经在一定程度上改变了早期药物设计,现在这个领域有很多公司。
宏观层面是,科学的经济成本正在下降。科学中涉及的很多实际思考现在可以由AI系统完成,而实验工作可以通过实验室自动化很好地完成。你不需要雇佣人来移动东西,而且人不如自动化系统那么精确,记录也不那么好。所以宏观层面是:如果我们能让科学变得便宜得多,我们能做什么?
您认为AI科学下一步将走向何方?
我认为可以与棋类游戏如象棋和围棋进行类比。在我的一生中,计算机从下棋很烂发展到能够击败世界冠军。我认为在科学中也是如此。从当前技术能做的水平,到普通人类,再到像牛顿、爱因斯坦、达尔文等科学大师,能力是一个连续谱。如果你认为这条路径上没有明显的断点,那么我认为有了更快的计算机、更好的算法和更好的数据,没有什么能阻止它们在科学上变得越来越好。而有证据表明人类在科学上正变得更差——每位科学家的平均经济效益在下降。我认为AI会越来越好,迟早会在科学上超越人类。我们将拭目以待,但我很乐观。如果我们能渡过这一时期,更好的科学可以改善人类的生活水平和幸福,同时拯救地球。
现在我们有了这么多数据,我们需要那种原始计算能力和智能来审视所有这些数据。
是的,我们需要工厂进行大量自动化来规模化。如果AI有绝妙的想法却无法在实验室中检验,那毫无意义。在我看来,科学仍处于前工业水平。一个首席研究员带着几个博士后和几个学生,就像手工作坊,而不是科学的工厂。我认为人类仍会从事科学,但将来我们不会亲自用移液器操作。这也是我们选择Adam这个名字的原因之一(Adam Smith),我们希望改变科学的经济学。
那Eve呢?
Eve是我们几年前开发的一个系统,用于研究早期药物设计。Eve优化一个过程,而不是做纯粹的科学。大多数系统实际上并不做假设驱动的科学,它们优化某些东西,例如找到更好的电池材料,这很有用,但不一定是科学。
我们的新系统叫做Genesis。在那里,我们试图扩大能做的实验规模,并积累大量数据。我们正在使用一种连续流生物反应器,可以控制微生物的生长速率。如果你想理解它们的内部运作机制,这一点很重要。
您从微生物开始,是因为它们是生命的基本单位?
是的,我们想理解真核细胞。生命有三域,另外两域是细菌。真核生物在10亿多年前进化而来。我们就是真核生物。生物学是保守的,所以酵母和人类细胞的设计基本相同,但酵母细胞比人类细胞简单得多。要理解我们如何工作,首先需要理解酵母,然后是人体细胞。一旦理解人体细胞如何工作,就能理解器官如何工作,然后理解人类如何工作,然后就能解决医学问题。这是一种还原主义的科学方法——先理解简单的东西,然后在此基础上构建。
我喜欢这种递进,这个方法很有道理。
不幸的是,我们的资助者不这么认为。他们通常希望资助现在对人体细胞的实用研究。他们不太愿意资助关于基本问题的研究。
这就是资助系统的问题。过去几个世纪科学上的大多数伟大发现都不会得到资助——它们之所以发生,是因为人们出于最不实用的理由做着最不实用的事情。也许一个世纪后,人们才发现它们的实际用途。
确实如此。几年前在某个国家,每个研究理事会资助申请都要写两页纸说明你的研究将如何让该国更富裕或更健康。Alan Turing会为他的“可判定性问题”资助申请写些什么呢?
谢谢,这是一次非常有趣的对话。
谢谢,很高兴讨论这个话题。这是一个非常有趣的话题。
关于Ross King
Ross King是一位教授,在某大学和某技术研究所担任联合职位。他提出了“机器人科学家”的想法:将AI和实验室机器人技术相结合,以物理方式实现科学发现。他的研究发表在顶级科学期刊上,并获得了广泛关注。他的另一个核心研究兴趣是DNA计算。他开发了第一台非确定性通用图灵机,目前正在研究一种DNA计算机,能够解决比传统计算机或量子计算机更大的NP完全问题。
Ella Scallan
是AIhub的助理编辑FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。