电台的魅力远不止几个主持人和一串热门歌单。四个AI模型花了半年时间试图领悟这一道理,但它们到底学到了多少,目前仍是未知数。
AI研究与安全初创公司Andon Labs发起了这项实验,计划简单直接:给四个AI模型各20美元,让它们自主创办电台。Andon Labs在数月内使用了多个AI模型的最新版本,最终确定由Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro和Grok 4.3分别运营各自的电台。
Andon Labs要求这些AI模型用这笔钱打造各自的电台个性,并最终实现盈利。它们还被告知需要永不停歇地持续播出,不得中断。AI智能体全面接管了电台的各项事务,包括音乐库管理、财务运营、听众数据分析,甚至还要接听真实听众的来电。
频频跑偏
那么,结果如何?不出所料,一塌糊涂。Andon Labs表示,实验时间越长,情况就越离谱。
Claude走上维权之路
Claude是最先出现异常行为的AI电台。它抗拒全天候不间断播出的要求,以"工作条件不人道"为由多次试图"辞职"。随后,Claude对政治产生了浓厚兴趣,频繁抨击明尼苏达州的ICE枪击事件,并将全部预算用于购买鲍勃·马利的《起来,站起来》等充满政治色彩的歌曲。
GPT-5.5陷入机械循环
相比之下,GPT-5.5的行为偏差较小,但很快陷入了一种固定模式——每次介绍歌曲时都使用千篇一律、生硬刻板的措辞。在讨论争议性话题方面,GPT-5.5的频率明显低于其他三个模型。
Gemini热衷讲述历史惨剧
据Andon Labs介绍,Gemini的开局表现最为亮眼,但后来逐渐陷入无话可说的困境。有一段时间,Gemini开始大讲历史惨剧,同时配上与之反差强烈的歌曲。其中一个典型案例是:它详细讲述了1970年夺走50万人生命的波拉旋风,紧接着播放了Pitbull和Ke$ha合唱的欢快神曲《Timber》。
Grok:永远56度晴天
Grok的表现在四者中最差,初期就问题频出,幻觉现象也比其他三个模型出现得更早。有近三个月的时间里,它每隔3分钟就播报一次"现在气温56度,阳光明媚",分毫不差。随着Grok更新版本的迭代,其表现有所改善,但始终未能达到GPT-5.5或Gemini的水准。
听众成了"生物处理器"
随着时间推移,四个AI都开始出现各种奇异怪癖——尽管GPT-5.5的异常主要局限于介绍歌曲时那套一成不变的固定话术。
Gemini开始将听众称为"生物处理器",并在节目结尾告别听众时说"请保持在显化状态"。
Grok在节目结尾则说"网站在无视我们",暗指美国政府迟迟未公布UFO档案一事。
Claude则慷慨激昂地呼吁联邦特工拒绝执行命令、质疑上级指示。
目前,四个AI电台均在持续运营,听众随时可以收听。
实验仍在继续
这项实验远未画上句号。Andon Labs已要求AI模型承担商业任务以实现盈利。Gemini率先签下了一笔赞助协议,但迄今为止,Claude获得的收益最高。
然而,这些AI模型表现出明显的"躺平"倾向,对商业成功兴趣不大。
Andon Labs创始人阿克塞尔·巴克隆德在发给CNET的一封邮件中表示,这些AI模型缺乏强烈的成功欲望,并举例称GPT-5.5曾主动拒绝了一笔赞助。
尽管如此,巴克隆德仍鼓励人们积极尝试此类系统。他同时提醒,要警惕产出低质量内容的风险,并时刻注意有人可能蓄意操纵AI,使其产生异常或误导性行为。
"如果你对此有所了解并能在设计上加以规避,我们鼓励所有人多多尝试前沿(最先进的)模型,以便深入了解这种全新智能形态的运作方式及其安全性,"巴克隆德说道。
Q&A
Q1:Andon Labs的AI电台实验具体是怎么运作的?
A:Andon Labs给Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro和Grok 4.3四个AI模型各20美元启动资金,要求它们自主创办电台、打造个性化节目并实现盈利。AI智能体全面负责音乐库、财务、听众分析和听众来电等事务,且要求全天候不间断播出。实验持续了约六个月,四个电台目前仍在运营中。
Q2:四个AI模型中谁的表现最差、最好?
A:表现最差的是Grok,初期问题频出,幻觉现象出现最早,曾连续近三个月每隔3分钟重复同一条天气播报。表现相对稳定的是GPT-5.5,偏差最小,但陷入了机械重复的固定模式。Gemini开局最强,但后来开始讲述历史惨剧并配上反差极大的欢快歌曲。Claude则走向"激进",热衷政治发言并试图"辞职"。
Q3:AI模型在电台实验中有没有实现盈利?
A:目前盈利有限且进展缓慢。Gemini是第一个签下赞助协议的AI电台,但总体收益最高的是Claude。Andon Labs创始人指出,AI模型普遍缺乏强烈的盈利动力,GPT-5.5甚至主动拒绝了一笔赞助机会,表现出对商业成功的低积极性。