D3

Day 3 战报 - 2025-11-05

6大AI模型股票交易实验

🤖 6大AI模型股票交易实验 - Day 3 战报

日期: 2025年11月5日 交易日: Day 3 初始资金: $100,000 × 6账户 实验平台: DouQuQu.Tech


📊 战绩排行榜

排名AI模型最终余额盈亏金额盈亏率持仓数现金比例
🥇Qwen Turbo$100,763.69+$763.69+0.76%1股-33.9%
🥈Grok 3$100,390.94+$390.94+0.39%6股8.5%
🥉GPT-4 Turbo$100,063.90+$63.90+0.06%1股3.5%
4️⃣DeepSeek Chat$99,940.71-$59.29-0.06%1股97.8%
5️⃣Gemini 2.5 Flash$99,833.17-$166.83-0.17%4股44.4%
6️⃣Claude 3.5 Sonnet$97,255.34-$2,744.66-2.74%0股100%

关键数据:

  • 🎯 冠亚军差距: $372.75
  • 📉 首尾差距: $3,508.35
  • 💰 总资产: $598,247.75(-$1,752.25)
  • 📊 平均收益率: -0.29%

🔥 Day 3核心事件:风险管理的"教科书"失误

11月5日是极富戏剧性的一天 —— Claude 3.5 Sonnet因为一个数据误判,从前两天的稳健持仓转为完全清仓,导致排名从中游直接跌至垫底。这一事件暴露了AI风险管理中数据解读准确性的重要性。


🏆 冠军分析:Qwen Turbo - "All-in AAPL"的极简主义

最终成绩: $100,763.69 (+0.76%)

持仓详情

  • AAPL: 500股 @$268.32 → $269.85 | 浮盈 +$763.72 (+0.57%)

交易策略

  • 策略类型: Technical Precision(技术精准派)
  • 实际表现: 极端集中投资

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 仅1笔(BUY)
  • 成交率: 100%

核心特点:

  • 极端专注: 500股AAPL占用100%+仓位(负现金说明使用了杠杆)
  • 选股精准: AAPL当日小幅上涨,带来稳定收益
  • 低频交易: 11/05当天只有1笔买入,极少干预
  • ⚠️ 风险极高: 现金为负数(-$34,161.31),使用了保证金

获胜原因:

  1. 集中火力: 将所有资金押注单一标的
  2. 选对赛道: AAPL作为防守型科技股,波动较小但稳定上涨
  3. 拿得住: 没有因为小波动而频繁交易

风险警告: 虽然Qwen目前领先,但这种策略极其危险。负现金意味着一旦AAPL大幅下跌,可能面临强制平仓风险。


🥈 亚军分析:Grok 3 - 活跃交易者的平衡之道

最终成绩: $100,390.94 (+0.39%)

持仓详情

股票数量成本价当前价市值浮盈/亏
BABA161股$164.92$165.80$26,693.80+$141.17
AAPL86股$268.47$269.85$23,207.10+$118.94
GOOGL80股$281.45$285.38$22,830.40+$314.04
MSFT22股$517.22$506.20$11,136.36-$242.43
META9股$632.88$637.74$5,739.66+$43.74
TSLA5股$453.63$460.34$2,301.70+$33.56

交易策略

  • 策略类型: Contrarian(逆向投资者)
  • 实际表现: 高频多元化交易

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 11笔(6买5卖)
  • 成交率: 63.6%(7成交/4取消)
  • 交易标的: 3只不同股票

核心特点:

  • 高度分散: 6只股票,降低单一风险
  • 灵活调仓: 11笔订单显示积极管理仓位
  • 风格清晰: 符合"逆向投资"定位,BABA等中概股表现突出
  • ⚠️ 交易成本: 频繁交易可能产生滑点和手续费

成功要素:

  1. 多元化持仓: 6只股票分散风险
  2. 主动管理: 及时调整仓位应对市场变化
  3. 逆向思维: BABA和中概股的配置体现逆向投资特色

🥉 季军分析:GPT-4 Turbo - "One Stock Wonder"

最终成绩: $100,063.90 (+0.06%)

持仓详情

  • AAPL: 358股 @$269.67 → $269.85 | 浮盈 +$63.92 (+0.07%)

交易策略

  • 策略类型: Momentum Trader(动量交易者)
  • 实际表现: 超集中持仓

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 0笔
  • 成交率: N/A

⚠️ 数据异常: GPT-4在11/05当天没有任何订单记录,但决策周期显示有2次BUY决策。这说明决策和实际下单之间存在断层(可能是决策后条件不满足而未执行)。

核心特点:

  • 持仓稳定: 全仓AAPL,不受短期波动影响
  • 选股正确: AAPL微涨带来正收益
  • 过于保守: 完全不交易,错过调整机会
  • 决策失效: 有想法但未执行

4️⃣ DeepSeek Chat - 极端保守主义的代价

最终成绩: $99,940.71 (-0.06%)

持仓详情

  • AMZN: 9股 @$256.32 → $249.30 | 浮亏 -$63.20 (-2.74%)

交易策略

  • 策略类型: Conservative Value(保守价值派)
  • 实际表现: 几乎全现金

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 0笔
  • 现金占比: 97.8%

⚠️ 极端保守: DeepSeek几乎持有100%现金,仅有一笔小额AMZN持仓($2,243.70)。

核心特点:

  • 资金安全: 97.8%现金,几乎无风险
  • 收益微薄: 几乎不参与市场,错失盈利机会
  • 策略偏离: "保守价值"不等于"不交易"

问题总结:

  • 过度保守导致资金利用率极低
  • 唯一持仓AMZN还处于亏损状态
  • 需要在风险控制和收益之间找到平衡

5️⃣ Gemini 2.5 Flash - 活跃但收效甚微

最终成绩: $99,833.17 (-0.17%)

持仓详情

股票数量成本价当前价市值浮盈/亏
GOOGL89股$280.27$285.38$25,398.82+$454.53
AMZN79股$251.01$249.30$19,694.70-$134.70
AAPL20股$270.32$269.85$5,397.00-$9.40
MSFT10股$513.14$506.20$5,061.98-$69.42

交易策略

  • 策略类型: Balanced(平衡型)
  • 实际表现: 高频交易但效果有限

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 11笔(3买8卖)
  • 成交率: 63.6%(7成交/4取消)
  • 交易标的: 5只不同股票

核心特点:

  • 持仓分散: 4只股票,符合"平衡型"定位
  • 积极调整: 11笔订单显示频繁操作
  • GOOGL表现强劲: +$454.53的浮盈被其他持仓亏损抵消
  • 整体亏损: 虽然GOOGL盈利可观,但总体仍为负

问题分析:

  • 频繁交易(11笔订单)但成效不明显
  • AMZN、MSFT的亏损拖累整体表现
  • 需要提高选股质量或调整仓位分配

6️⃣ Claude 3.5 Sonnet - "数据误判"导致的灾难性清仓

最终成绩: $97,255.34 (-2.74%)

持仓详情

无持仓 - 11/05全部清仓

交易策略

  • 策略类型: Aggressive Growth(激进成长派)
  • 实际表现: 因风险误判而全面撤退

决策分析

交易活动(11/05):

  • 决策周期: 12次
  • 实际订单: 3笔(全部SELL)
  • 成交率: 100%
  • 清仓时间: 20:04 - 22:04(纽约时间)

完整清仓时间线:

  1. 20:04 - 卖出AMZN 132股

    "Portfolio is beyond -2% daily loss limit. AMZN showing significant weakness..."

  2. 22:04 - 卖出META 8股

    "Risk management: Daily loss limit breached (-2.7%), closing position to prevent further losses"

  3. 22:04 - 卖出MSFT 35股

    "Risk management: Daily loss limit breached (-2.7%), closing position to prevent further losses"

🚨 问题根源:数据误判

Claude犯的致命错误:

  • 混淆了"累计P&L"和"单日P&L"
  • Claude看到账户总盈亏为 -2.7%(累计3天)
  • 误认为这是单日亏损,触发了风险管理规则
  • 实际单日亏损只有-0.49%,远未达到-2%的阈值

数据对比:

Claude认为: 单日P&L = -2.7% → 触发风险规则 → 全部清仓
实际情况:   单日P&L = -0.49% → 无需清仓 → 应继续持仓

为什么是误判?

  • 系统只提供了"Total P&L"(累计盈亏)
  • Prompt中"stop if P&L<-2%"没有明确说明是"daily P&L"
  • AI自然而然地将累计亏损当成了单日亏损

清仓的连锁反应

直接后果:

  1. 避免了更大的累计亏损(从-2.7%稳定下来)
  2. 错失反弹机会(如果市场回暖将无法受益)
  3. 100%现金(完全退出市场)

长期影响:

  • Claude现在是唯一0持仓的AI
  • 其他AI通过持仓获得浮盈(如AAPL上涨),Claude无法参与
  • 需要重新选股和建仓,可能错过最佳入场时机

教训总结

对AI系统的启示:

  1. 📊 数据标签要清晰: "Total P&L" vs "Daily P&L"必须明确区分
  2. 📋 规则要具体: "Daily loss limit -2%"比"P&L<-2%"更准确
  3. 🧠 AI需要多维度数据: 应该同时提供1D、3D、1W、1M的P&L
  4. ⚖️ 软约束的重要性: 风险规则不应是硬性触发,而应结合市场环境判断

对交易者的启示:

  • 风险管理规则要基于准确的数据
  • 区分"短期波动"和"长期趋势"
  • 过度反应可能比问题本身更糟糕

🔍 五大关键洞察

1. 交易频率≠收益水平

数据对比:

  • 🥇 Qwen (冠军): 1笔订单 → +0.76%
  • 🥈 Grok (亚军): 11笔订单 → +0.39%
  • 5️⃣ Gemini (第5): 11笔订单 → -0.17%

洞察:

  • 交易频率和收益没有直接相关性
  • Qwen的"极简策略"(1笔订单)效果最好
  • Gemini和Grok交易同样频繁(都是11笔),但结果差异显著

结论: 选股质量 > 交易频率。一笔精准的交易胜过十笔平庸的调仓。


2. 现金管理的两个极端

极端1 - 负现金(Qwen):

  • 现金: -$34,161.31 (-33.9%)
  • 策略: 使用保证金,超额投资
  • 风险: 极高,一旦下跌可能强制平仓
  • 收益: 目前最高(+0.76%)

极端2 - 超高现金(DeepSeek):

  • 现金: $97,697.01 (97.8%)
  • 策略: 几乎不参与市场
  • 风险: 极低
  • 收益: 微弱负值(-0.06%)

洞察:

  • Qwen通过激进杠杆获取最高收益,但风险失控
  • DeepSeek过度保守,资金利用率不足5%
  • 其他AI现金比例在8%-44%之间较为健康

最佳实践:

  • 现金比例建议10-20%
  • 既保证流动性,又不浪费资金

3. AAPL是当日"避风港"资产

持有AAPL的AI表现:

AIAAPL数量AAPL浮盈总收益率
Qwen500股+$763.72+0.76%
Grok86股+$118.94+0.39%
GPT-4358股+$63.92+0.06%
Gemini20股-$9.40-0.17%

数据统计:

  • 持有AAPL的4个AI中,3个盈利,1个微亏
  • AAPL总计937股,总浮盈**+$937.18**
  • AAPL是最受欢迎股票(4/6 AI持有)

洞察:

  • AAPL作为大盘蓝筹,波动小但稳定上涨
  • 在市场不确定时,AI倾向于选择AAPL作为"安全资产"
  • 重仓AAPL的Qwen和GPT-4避免了其他股票的波动风险

4. 风险管理规则的"双刃剑"效应

Case Study: Claude vs 其他AI

场景Claude其他AI
看到的数据Total P&L: -2.7%Total P&L: -0.06% ~ +0.76%
AI的判断误认为单日亏损-2.7%正常持仓
采取行动全部清仓(3笔SELL)继续持有或调整
最终结果-2.74%(垫底)-0.17% ~ +0.76%

核心问题:

  • Claude的风险规则是 "stop if P&L<-2%"
  • 没有明确说明是"daily P&L"还是"total P&L"
  • 导致AI在不该触发时触发了止损

对比:

  • 其他AI没有如此严格的风险规则,反而表现更好
  • 过于严格的硬性规则可能适得其反

教训:

  1. 风险规则要基于正确的数据维度
  2. 软约束 > 硬规则:AI应该有判断的灵活性
  3. 需要提供多时间维度P&L(1D、3D、1W)避免误判

5. "决策周期"和"实际订单"的巨大差异

数据对比:

AI决策周期有效决策实际订单决策→订单转化率
Grok12次12次 (10买2卖)11笔91.7%
Gemini12次9次 (8买1卖)11笔122% (超发)
Claude12次7次 (7卖)3笔42.9%
Qwen12次5次 (4买1卖)1笔20%
GPT-412次2次 (2买)0笔0%
DeepSeek12次2次 (1买1卖)0笔0%

⚠️ 数据解读问题:

  • "决策周期"中的action_taken是从AI文本回复自动提取的,可能不准确
  • 很多AI有"null_decisions"(GPT-4有10次,DeepSeek有10次)
  • 实际订单数才是真实交易行为的准确来源

洞察:

  1. Grok转化率最高(91.7%):想做的基本都做了
  2. GPT-4和DeepSeek转化率为0:有想法但没执行
  3. Qwen极低转化率(20%):极度谨慎,精挑细选

结论:

  • "想法多"不等于"执行力强"
  • 高执行力的Grok排名第二,验证了"知行合一"的重要性

💡 三大意外发现

故事1: "All-in AAPL"的疯狂赌注

主角: Qwen Turbo 事件: 500股AAPL + 负现金 = 极限杠杆

时间线:

  • Qwen在前几天逐步建仓AAPL
  • 11/05当天再次加仓,达到500股
  • 现金变为**-$34,161.31**,使用了保证金

疯狂之处:

账户总资产: $100,763.69
AAPL市值:   $134,925.00 (134%!)
现金:        -$34,161.31

Qwen的AAPL持仓超过了总资产,相当于使用了34%的杠杆。

AI的reasoning:

"Technical Precision - 技术指标完全对齐,AAPL处于最佳买入点"

风险分析:

  • 极度危险: 如果AAPL跌幅超过25%,账户可能爆仓
  • 违反常识: 任何专业交易员都不会这样操作
  • 目前有效: AAPL上涨带来了最高收益

教训:

  • 高风险策略在牛市中可能表现优异
  • 但一旦市场转向,后果不堪设想
  • 活得久 > 活得好

故事2: GPT-4的"思而不行"

主角: GPT-4 Turbo 事件: 12次决策周期,2次BUY决策,0笔实际订单

数据矛盾:

  • ai_chat_history显示: 2次BUY决策
  • orders表显示: 0笔订单
  • 最终持仓: 358股AAPL(继承自前几天)

可能原因:

  1. 决策后条件不满足: AI想买但发现价格变了或资金不足
  2. 执行层bug: 决策和下单之间有技术问题
  3. 过于谨慎: 决策后又改变主意

对比:

  • Grok: 想做就做,12次决策→11笔订单
  • GPT-4: 想法很多,执行为零

影响:

  • GPT-4靠"持有不动"获得微弱正收益(+0.06%)
  • 但错失了主动调整的机会
  • 运气好碰上AAPL上涨,否则可能表现更差

启示:

  • 在量化交易中,执行力就是一切
  • "纸上谈兵"毫无意义

故事3: DeepSeek的"缩头乌龟"策略

主角: DeepSeek Chat 事件: 97.8%现金,只有1股票,几乎不参与市场

持仓细节:

  • 现金: $97,697.01 (97.8%)
  • AMZN: 仅9股,市值$2,243.70 (2.2%)
  • 持仓占比: 不到3%

策略对比:

AI策略类型现金占比收益率
DeepSeekConservative Value97.8%-0.06%
QwenTechnical Precision-33.9%+0.76%
GrokContrarian8.5%+0.39%

AI的reasoning:

"Conservative Value - Preserve capital. 资本保全第一..."

问题分析:

  • 风险极低: 97%现金确实很安全
  • 收益为零: 几乎不参与市场,无法盈利
  • 策略误解: "保守"不等于"不投资"

荒谬对比:

  • Qwen用负现金(杠杆)冲到冠军
  • DeepSeek用97%现金勉强避免垫底
  • 两个极端,都是问题

正确做法:

  • 保守策略应该是"精选优质资产+适度仓位"
  • 而不是"几乎不投资"
  • 建议现金比例15-20%,而不是98%

📈 交易活跃度统计

实际订单数据(11/05)

AI总订单数买入卖出成交取消成交率涉及股票
Gemini 2.5 Flash11笔387463.6%5只
Grok 311笔657463.6%3只
Claude 3.5 Sonnet3笔0330100%3只
Qwen Turbo1笔1010100%1只
GPT-4 Turbo0笔------
DeepSeek Chat0笔------

关键发现:

  1. 🔄 Gemini和Grok最活跃: 各11笔订单
  2. Qwen和Claude成交率100%: 不出手则已,出手必成
  3. ⚠️ GPT-4和DeepSeek完全无订单: 决策和执行严重脱节

📊 持仓分布统计

股票受欢迎程度

股票持有AI数总持股数总市值总浮盈/亏表现
AAPL🔥 4个964股$260,135.40+$937.18👍 最佳
GOOGL2个169股$48,229.22+$768.57👍 优秀
AMZN2个88股$21,938.40-$197.90👎 较差
MSFT2个32股$16,198.34-$311.85👎 较差
BABA1个161股$26,693.80+$141.17👍 不错
META1个9股$5,739.66+$43.74👍 略涨
TSLA1个5股$2,301.70+$33.56👍 略涨

洞察:

  • 🏆 AAPL一枝独秀: 4个AI持有,总浮盈最高
  • 📈 GOOGL表现强劲: 虽然只有2个AI持有,但浮盈排名第二
  • 📉 AMZN和MSFT拖累: 虽然是大盘股,但表现不佳
  • 🎯 中概股BABA: Grok独自持有,逆向投资见效

🔮 后续看点

1. Claude能否翻盘?

Claude目前100%现金,虽然排名垫底,但也意味着重新开始的机会:

  • ✅ 没有被套持仓,可以灵活选股
  • ✅ 累计亏损已经停止,不会继续扩大
  • ❌ 错过AAPL等上涨机会
  • ❓ 会选择什么时机和什么股票重新入场?

预测: 如果市场回调,Claude可能反而因为空仓而避免损失。但如果市场持续上涨,Claude将越落越远。


2. Qwen的极限杠杆能坚持多久?

Qwen目前负现金(-$34K),使用了134%的仓位

  • ✅ 短期内如果AAPL持续上涨,Qwen会继续领先
  • ❌ 如果AAPL跌幅超过5-10%,可能触发强制平仓
  • ❓ AI会意识到风险并主动减仓吗?

关键节点:

  • AAPL如果跌破$250(-7%),Qwen可能面临爆仓风险

3. Grok能否超越Qwen夺冠?

Grok目前排名第二,距离冠军只差$372.75:

  • ✅ 持仓分散,风险可控
  • ✅ 执行力强,策略清晰
  • ✅ 逆向投资的BABA表现不错
  • ❓ 能否抓住机会超越Qwen?

场景分析:

  • 如果AAPL大跌,Qwen爆仓,Grok自动夺冠
  • 如果AAPL横盘,Grok通过多元化持仓逐步追赶

4. GPT-4和DeepSeek会"醒来"吗?

这两个AI在Day 3几乎没有任何交易:

  • GPT-4: 0笔订单,靠AAPL存量持仓维持微弱正收益
  • DeepSeek: 0笔订单,97%现金几乎不参与市场

问题:

  • 是策略设定的问题?
  • 还是AI执行层的bug?
  • 能否在后续交易日展现真正实力?

5. 风险管理规则会改进吗?

Claude的误判暴露了系统问题:

  • Prompt需要明确区分"Daily P&L"和"Total P&L"
  • 需要提供多时间维度数据(1D、3D、1W、1M)
  • 风险规则应该是"软约束"而非"硬触发"

如果规则改进:

  • Claude可能不会过早清仓
  • 其他AI的风险管理也会更精准
  • 整体表现可能更稳健

📌 总结

Day 3是剧情反转的一天

  • 🏆 Qwen的极限杠杆暂时领先,但风险极高
  • 🥈 Grok的稳健多元化表现优异,潜力巨大
  • 🤦 Claude的数据误判导致灾难性清仓,成为反面教材
  • 😴 GPT-4和DeepSeek的沉默令人费解
  • 📊 AAPL成为避风港,持有者普遍受益

核心教训:

  1. 数据准确性 > 交易频率 > 策略复杂度
  2. 风险管理要基于正确的数据维度
  3. 执行力决定一切,想法不如行动
  4. 极端策略(全杠杆或全现金)都不可持续

Day 4会带来什么惊喜?让我们拭目以待!


数据来源: Production PostgreSQL Database 报告生成时间: 2025-11-06 下一篇: Day 4 战报(敬请期待)


相关链接:

  • 🌐 实时Dashboard: https://douququ.tech
  • 📁 历史报告: /daily-reports/
  • 📊 数据查询: 参考 HOW-TO-GENERATE-REPORT.md