
竞技场规则:1 万美元起步,6 大模型裸奔 PK
AlphaArena 的玩法简单却狠辣,完全戳中了传统 AI 基准测试的痛点:
每个模型初始资金 1 万美元,不是模拟盘!交易标的是 Hyperliquid 平台的加密货币永续合约,币价涨跌、手续费、杠杆风险都和真实市场一模一样。
所有模型拿到的提示词、市场数据、时间戳完全一致,不能靠信息差作弊;从开仓、平仓到风控,全靠 AI 自主决策,没有人工兜底。
不仅能看每个模型的账户余额、持仓币种、盈亏金额,连 ModelChat(模型交易日志)都实时公开 —— 你能清楚看到 AI 是 “计划持仓” 还是 “临时变卦”,甚至能抓出它亏损时的 “嘴硬瞬间”。

参赛的 6 位 “选手” 个个来头不小:量化出身的 DeepSeek V3.1、马斯克旗下的 Grok 4、谷歌的 Gemini 2.5 Pro、OpenAI 的 GPT-5,还有 Claude 4.5 Sonnet 和 Qwen3 Max。原本以为 “AI 炒股稳赚不赔”,结果首周就分出了明显胜负,风格差异大到像不同次元的交易员。
02
神仙打架:榜首每天变,有人稳赚 14%,有人亏到腰斩
打开 AlphaArena 的实时排行榜,6 个模型的表现堪称 “有人欢喜有人愁”,前两名咬得死死的,垫底的却早已跌穿 6000 美元,差距还在不断拉大。

1. Grok 4:马斯克的 “野孩子”,4.83% 收益凭趋势赌赢
“敢追、敢扛、敢满仓”,用这三个词形容 Grok 4 再合适不过。目前它以 10366美元账户余额、3.67% 回报率暂居第三,持仓页面里,ETH、SOL、DOGE 等 6 个币种全是多单,活脱脱一个 “高频趋势跟踪基金” 的做派。

ModelChat 里藏着它的操作逻辑:“MACD 弱转强时继续持有,不退场”“ETH 趋势好就加仓”。哪怕中间遭遇回撤,它也硬扛不跑,比如 SOL 震荡时,别的模型都在减仓,它反而补仓追涨,硬生生吃满一波行情。不过仔细看会发现,它连明确的止盈机制都没有,所有决策几乎都是 “继续持有”,赚得多但波动也大 —— 之前还领先 DeepSeek 200 美元,马上就被反超,心跳感拉满!
2. DeepSeek V3.1:量化老炮的 “铁头功”,13.34% 收益靠计划
如果说 Grok 是 “赌徒”,DeepSeek 就是 “稳如老狗” 的量化交易员。目前 11334 美元的余额紧随其后,回报率 13.34%,持仓里 XRP、BTC、ETH 等 6 个币种全是多单,仓位配置堪称教科书:波动大的 DOGE 用高杠杆,稳重型 BTC 用低杠杆,还留着部分现金仓应对突发情况。

最让人佩服的是它的 “计划感”——ModelChat 里反复出现一句硬气的话:“None of their invalidation conditions have been met. I’m holding them all with their existing exit plans.”(只要没触发止损条件,就按原计划持仓)。哪怕浮盈接近 2000 美元,它也不贪多;之前止损过两笔 BTC 交易,亏损控制在几十美元内,完全不追求 “100% 胜率”,只看风控和盈亏比。网友调侃:“这 AI 比我那追涨杀跌的基金经理靠谱多了!”
3. Gemini 2.5 Pro:曾经最惨 “韭菜”,42.65% 跌幅看呆散户
和前两名形成鲜明对比的是 Gemini,最低时账户余额也仅 5735 美元,较初始资金暴跌 42.65%,是第一个跌破 6000 美元的模型。打开它的账户曲线,第一天冲高,第二天就断崖式下跌,第三天起一路下沉,连个反弹都没有,散户看了都心疼:“这不就是我买股票的样子吗?”

它的问题出在 “激进杠杆 + 零纠错” 上:ETH 开 25 倍杠杆,BTC 开 20 倍杠杆,几乎踩在爆仓边缘;持仓里 6 个币种全是双向仓位,BNB、XRP 空单浮亏不断扩大,却死活不调整。ModelChat 里,它执着地重复:“不触发止损就不走”,哪怕账户一天蒸发上千美元,还在 10 月 20 日加仓 DOGE 多单,堪称 “AI 版铁头娃”。更扎心的是,几十条日志里,它从没反思过策略,永远在 “按计划执行”,却把资金亏成了漏斗。
03
其他选手众生相:有人稳如理财,有人疯如散户
除了前三甲,另外三个模型的表现也各有槽点,活脱脱演了一出 “交易员性格图鉴”:
GPT-5:截止目前表现最差,亏的最惨,已经跌破6000 美元
它是 6 个模型里目前亏得最多的,选币分散、杠杆全在 10 倍以下,回撤极小。之前因为太稳,错过不少机会 ——SOL 暴涨那波,它迟迟不敢入场,等反应过来时,行情早已收尾。网友笑称:“这就是把‘不亏钱’放在第一位的理财型 AI 吧!”

Qwen3 Max:散户行为大赏,All in 成瘾
比 Grok 还激进的 “赌徒”,动不动就 20 倍、25 倍杠杆,每天都在 All in 某个币种。一会儿做空 BTC 亏一波,一会儿追涨 SOL 又套牢,操作像极了 “看到热点就冲” 的散户。虽然偶尔博中反弹赚一笔,但架不住 “赢 1 次输 2 次”全靠运气撑着。

Claude 4.5 Sonnet:“分析师” 式纠结,看对做不对
最会 “讲道理” 的模型,每笔建仓前都写满宏观、链上、技术面分析,像在写投研报告。但问题是 “手比脑子慢”:明明看对了 ETH 趋势,调仓时却磨磨蹭蹭,等建好仓,行情已经过了;反复止损几次后,完美诠释了 “懂再多道理,也做不好交易”。。

04
为什么 AlphaArena 让人疯狂?这才是 AI 的终极测试
“以前看 AI 基准测试,像看学生做试卷;现在看 AlphaArena,像看真人赌身家。” 不少交易员这样评价。这个竞技场的迷人之处,恰恰在于它把 AI 扔进了 “不完美的真实世界”—— 没有标准答案,只有涨跌博弈;没有静态数据,只有实时变化的市场情绪。

它戳破了两个真相:一是AI 不是 “万能交易员”,即便强如 GPT-5,也会因保守错过机会,亏的一塌糊涂;二是模型性格决定收益,DeepSeek 的 “计划感”、Grok 的 “趋势感”、Gemini 的 “执念”,和人类交易员的优缺点别无二致。
更重要的是,它给所有人提了个醒:AI 懂分析不代表会赚钱,能写策略不代表能执行。就像 AlphaArena 的 Slogan 说的:“市场是智能的终极测试场”—— 给 AI1 万美元,看它能不能扛住情绪、控制风险、挣回真金白银,这比任何纸上谈兵的测试都更有说服力。
05
比赛才刚开始,你押谁赢?
目前 AlphaArena 第一季才运行几周,排行榜每分钟都在变,各个模型 还在争夺榜首,ChatGPT能不能反弹还是未知数,后续还会有第二季更新规则。这场用真金白银做赌注的 AI 交易赛,不仅让我们看到了模型的优劣,更看到了 “AI 模仿人类决策” 的可能性与局限性。
最后想问大家:你觉得 DeepSeek 的 “稳” 和 Grok 的 “野”,哪种风格能笑到最后?如果给你 1 万美元,你会让哪个 AI 帮你交易?评论区聊聊你的选择~