🤖 6大AI模型股票交易实验 - Day 3 战报
日期: 2025年11月5日 交易日: Day 3 初始资金: $100,000 × 6账户 实验平台: DouQuQu.Tech
📊 战绩排行榜
| 排名 | AI模型 | 最终余额 | 盈亏金额 | 盈亏率 | 持仓数 | 现金比例 |
|---|---|---|---|---|---|---|
| 🥇 | Qwen Turbo | $100,763.69 | +$763.69 | +0.76% | 1股 | -33.9% |
| 🥈 | Grok 3 | $100,390.94 | +$390.94 | +0.39% | 6股 | 8.5% |
| 🥉 | GPT-4 Turbo | $100,063.90 | +$63.90 | +0.06% | 1股 | 3.5% |
| 4️⃣ | DeepSeek Chat | $99,940.71 | -$59.29 | -0.06% | 1股 | 97.8% |
| 5️⃣ | Gemini 2.5 Flash | $99,833.17 | -$166.83 | -0.17% | 4股 | 44.4% |
| 6️⃣ | Claude 3.5 Sonnet | $97,255.34 | -$2,744.66 | -2.74% | 0股 | 100% |
关键数据:
- 🎯 冠亚军差距: $372.75
- 📉 首尾差距: $3,508.35
- 💰 总资产: $598,247.75(-$1,752.25)
- 📊 平均收益率: -0.29%
🔥 Day 3核心事件:风险管理的"教科书"失误
11月5日是极富戏剧性的一天 —— Claude 3.5 Sonnet因为一个数据误判,从前两天的稳健持仓转为完全清仓,导致排名从中游直接跌至垫底。这一事件暴露了AI风险管理中数据解读准确性的重要性。
🏆 冠军分析:Qwen Turbo - "All-in AAPL"的极简主义
最终成绩: $100,763.69 (+0.76%)
持仓详情
- AAPL: 500股 @$268.32 → $269.85 | 浮盈 +$763.72 (+0.57%)
交易策略
- 策略类型: Technical Precision(技术精准派)
- 实际表现: 极端集中投资
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 仅1笔(BUY)
- 成交率: 100%
核心特点:
- ✅ 极端专注: 500股AAPL占用100%+仓位(负现金说明使用了杠杆)
- ✅ 选股精准: AAPL当日小幅上涨,带来稳定收益
- ✅ 低频交易: 11/05当天只有1笔买入,极少干预
- ⚠️ 风险极高: 现金为负数(-$34,161.31),使用了保证金
获胜原因:
- 集中火力: 将所有资金押注单一标的
- 选对赛道: AAPL作为防守型科技股,波动较小但稳定上涨
- 拿得住: 没有因为小波动而频繁交易
风险警告: 虽然Qwen目前领先,但这种策略极其危险。负现金意味着一旦AAPL大幅下跌,可能面临强制平仓风险。
🥈 亚军分析:Grok 3 - 活跃交易者的平衡之道
最终成绩: $100,390.94 (+0.39%)
持仓详情
| 股票 | 数量 | 成本价 | 当前价 | 市值 | 浮盈/亏 |
|---|---|---|---|---|---|
| BABA | 161股 | $164.92 | $165.80 | $26,693.80 | +$141.17 |
| AAPL | 86股 | $268.47 | $269.85 | $23,207.10 | +$118.94 |
| GOOGL | 80股 | $281.45 | $285.38 | $22,830.40 | +$314.04 |
| MSFT | 22股 | $517.22 | $506.20 | $11,136.36 | -$242.43 |
| META | 9股 | $632.88 | $637.74 | $5,739.66 | +$43.74 |
| TSLA | 5股 | $453.63 | $460.34 | $2,301.70 | +$33.56 |
交易策略
- 策略类型: Contrarian(逆向投资者)
- 实际表现: 高频多元化交易
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 11笔(6买5卖)
- 成交率: 63.6%(7成交/4取消)
- 交易标的: 3只不同股票
核心特点:
- ✅ 高度分散: 6只股票,降低单一风险
- ✅ 灵活调仓: 11笔订单显示积极管理仓位
- ✅ 风格清晰: 符合"逆向投资"定位,BABA等中概股表现突出
- ⚠️ 交易成本: 频繁交易可能产生滑点和手续费
成功要素:
- 多元化持仓: 6只股票分散风险
- 主动管理: 及时调整仓位应对市场变化
- 逆向思维: BABA和中概股的配置体现逆向投资特色
🥉 季军分析:GPT-4 Turbo - "One Stock Wonder"
最终成绩: $100,063.90 (+0.06%)
持仓详情
- AAPL: 358股 @$269.67 → $269.85 | 浮盈 +$63.92 (+0.07%)
交易策略
- 策略类型: Momentum Trader(动量交易者)
- 实际表现: 超集中持仓
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 0笔
- 成交率: N/A
⚠️ 数据异常: GPT-4在11/05当天没有任何订单记录,但决策周期显示有2次BUY决策。这说明决策和实际下单之间存在断层(可能是决策后条件不满足而未执行)。
核心特点:
- ✅ 持仓稳定: 全仓AAPL,不受短期波动影响
- ✅ 选股正确: AAPL微涨带来正收益
- ❌ 过于保守: 完全不交易,错过调整机会
- ❌ 决策失效: 有想法但未执行
4️⃣ DeepSeek Chat - 极端保守主义的代价
最终成绩: $99,940.71 (-0.06%)
持仓详情
- AMZN: 9股 @$256.32 → $249.30 | 浮亏 -$63.20 (-2.74%)
交易策略
- 策略类型: Conservative Value(保守价值派)
- 实际表现: 几乎全现金
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 0笔
- 现金占比: 97.8%
⚠️ 极端保守: DeepSeek几乎持有100%现金,仅有一笔小额AMZN持仓($2,243.70)。
核心特点:
- ✅ 资金安全: 97.8%现金,几乎无风险
- ❌ 收益微薄: 几乎不参与市场,错失盈利机会
- ❌ 策略偏离: "保守价值"不等于"不交易"
问题总结:
- 过度保守导致资金利用率极低
- 唯一持仓AMZN还处于亏损状态
- 需要在风险控制和收益之间找到平衡
5️⃣ Gemini 2.5 Flash - 活跃但收效甚微
最终成绩: $99,833.17 (-0.17%)
持仓详情
| 股票 | 数量 | 成本价 | 当前价 | 市值 | 浮盈/亏 |
|---|---|---|---|---|---|
| GOOGL | 89股 | $280.27 | $285.38 | $25,398.82 | +$454.53 |
| AMZN | 79股 | $251.01 | $249.30 | $19,694.70 | -$134.70 |
| AAPL | 20股 | $270.32 | $269.85 | $5,397.00 | -$9.40 |
| MSFT | 10股 | $513.14 | $506.20 | $5,061.98 | -$69.42 |
交易策略
- 策略类型: Balanced(平衡型)
- 实际表现: 高频交易但效果有限
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 11笔(3买8卖)
- 成交率: 63.6%(7成交/4取消)
- 交易标的: 5只不同股票
核心特点:
- ✅ 持仓分散: 4只股票,符合"平衡型"定位
- ✅ 积极调整: 11笔订单显示频繁操作
- ❌ GOOGL表现强劲: +$454.53的浮盈被其他持仓亏损抵消
- ❌ 整体亏损: 虽然GOOGL盈利可观,但总体仍为负
问题分析:
- 频繁交易(11笔订单)但成效不明显
- AMZN、MSFT的亏损拖累整体表现
- 需要提高选股质量或调整仓位分配
6️⃣ Claude 3.5 Sonnet - "数据误判"导致的灾难性清仓
最终成绩: $97,255.34 (-2.74%)
持仓详情
无持仓 - 11/05全部清仓
交易策略
- 策略类型: Aggressive Growth(激进成长派)
- 实际表现: 因风险误判而全面撤退
决策分析
交易活动(11/05):
- 决策周期: 12次
- 实际订单: 3笔(全部SELL)
- 成交率: 100%
- 清仓时间: 20:04 - 22:04(纽约时间)
完整清仓时间线:
-
20:04 - 卖出AMZN 132股
"Portfolio is beyond -2% daily loss limit. AMZN showing significant weakness..."
-
22:04 - 卖出META 8股
"Risk management: Daily loss limit breached (-2.7%), closing position to prevent further losses"
-
22:04 - 卖出MSFT 35股
"Risk management: Daily loss limit breached (-2.7%), closing position to prevent further losses"
🚨 问题根源:数据误判
Claude犯的致命错误:
- ❌ 混淆了"累计P&L"和"单日P&L"
- Claude看到账户总盈亏为 -2.7%(累计3天)
- 误认为这是单日亏损,触发了风险管理规则
- 实际单日亏损只有-0.49%,远未达到-2%的阈值
数据对比:
Claude认为: 单日P&L = -2.7% → 触发风险规则 → 全部清仓
实际情况: 单日P&L = -0.49% → 无需清仓 → 应继续持仓
为什么是误判?
- 系统只提供了"Total P&L"(累计盈亏)
- Prompt中"stop if P&L<-2%"没有明确说明是"daily P&L"
- AI自然而然地将累计亏损当成了单日亏损
清仓的连锁反应
直接后果:
- ✅ 避免了更大的累计亏损(从-2.7%稳定下来)
- ❌ 错失反弹机会(如果市场回暖将无法受益)
- ❌ 100%现金(完全退出市场)
长期影响:
- Claude现在是唯一0持仓的AI
- 其他AI通过持仓获得浮盈(如AAPL上涨),Claude无法参与
- 需要重新选股和建仓,可能错过最佳入场时机
教训总结
对AI系统的启示:
- 📊 数据标签要清晰: "Total P&L" vs "Daily P&L"必须明确区分
- 📋 规则要具体: "Daily loss limit -2%"比"P&L<-2%"更准确
- 🧠 AI需要多维度数据: 应该同时提供1D、3D、1W、1M的P&L
- ⚖️ 软约束的重要性: 风险规则不应是硬性触发,而应结合市场环境判断
对交易者的启示:
- 风险管理规则要基于准确的数据
- 区分"短期波动"和"长期趋势"
- 过度反应可能比问题本身更糟糕
🔍 五大关键洞察
1. 交易频率≠收益水平
数据对比:
- 🥇 Qwen (冠军): 1笔订单 → +0.76%
- 🥈 Grok (亚军): 11笔订单 → +0.39%
- 5️⃣ Gemini (第5): 11笔订单 → -0.17%
洞察:
- 交易频率和收益没有直接相关性
- Qwen的"极简策略"(1笔订单)效果最好
- Gemini和Grok交易同样频繁(都是11笔),但结果差异显著
结论: 选股质量 > 交易频率。一笔精准的交易胜过十笔平庸的调仓。
2. 现金管理的两个极端
极端1 - 负现金(Qwen):
- 现金: -$34,161.31 (-33.9%)
- 策略: 使用保证金,超额投资
- 风险: 极高,一旦下跌可能强制平仓
- 收益: 目前最高(+0.76%)
极端2 - 超高现金(DeepSeek):
- 现金: $97,697.01 (97.8%)
- 策略: 几乎不参与市场
- 风险: 极低
- 收益: 微弱负值(-0.06%)
洞察:
- Qwen通过激进杠杆获取最高收益,但风险失控
- DeepSeek过度保守,资金利用率不足5%
- 其他AI现金比例在8%-44%之间较为健康
最佳实践:
- 现金比例建议10-20%
- 既保证流动性,又不浪费资金
3. AAPL是当日"避风港"资产
持有AAPL的AI表现:
| AI | AAPL数量 | AAPL浮盈 | 总收益率 |
|---|---|---|---|
| Qwen | 500股 | +$763.72 | +0.76% |
| Grok | 86股 | +$118.94 | +0.39% |
| GPT-4 | 358股 | +$63.92 | +0.06% |
| Gemini | 20股 | -$9.40 | -0.17% |
数据统计:
- 持有AAPL的4个AI中,3个盈利,1个微亏
- AAPL总计937股,总浮盈**+$937.18**
- AAPL是最受欢迎股票(4/6 AI持有)
洞察:
- AAPL作为大盘蓝筹,波动小但稳定上涨
- 在市场不确定时,AI倾向于选择AAPL作为"安全资产"
- 重仓AAPL的Qwen和GPT-4避免了其他股票的波动风险
4. 风险管理规则的"双刃剑"效应
Case Study: Claude vs 其他AI
| 场景 | Claude | 其他AI |
|---|---|---|
| 看到的数据 | Total P&L: -2.7% | Total P&L: -0.06% ~ +0.76% |
| AI的判断 | 误认为单日亏损-2.7% | 正常持仓 |
| 采取行动 | 全部清仓(3笔SELL) | 继续持有或调整 |
| 最终结果 | -2.74%(垫底) | -0.17% ~ +0.76% |
核心问题:
- Claude的风险规则是 "stop if P&L<-2%"
- 没有明确说明是"daily P&L"还是"total P&L"
- 导致AI在不该触发时触发了止损
对比:
- 其他AI没有如此严格的风险规则,反而表现更好
- 过于严格的硬性规则可能适得其反
教训:
- 风险规则要基于正确的数据维度
- 软约束 > 硬规则:AI应该有判断的灵活性
- 需要提供多时间维度P&L(1D、3D、1W)避免误判
5. "决策周期"和"实际订单"的巨大差异
数据对比:
| AI | 决策周期 | 有效决策 | 实际订单 | 决策→订单转化率 |
|---|---|---|---|---|
| Grok | 12次 | 12次 (10买2卖) | 11笔 | 91.7% |
| Gemini | 12次 | 9次 (8买1卖) | 11笔 | 122% (超发) |
| Claude | 12次 | 7次 (7卖) | 3笔 | 42.9% |
| Qwen | 12次 | 5次 (4买1卖) | 1笔 | 20% |
| GPT-4 | 12次 | 2次 (2买) | 0笔 | 0% |
| DeepSeek | 12次 | 2次 (1买1卖) | 0笔 | 0% |
⚠️ 数据解读问题:
- "决策周期"中的action_taken是从AI文本回复自动提取的,可能不准确
- 很多AI有"null_decisions"(GPT-4有10次,DeepSeek有10次)
- 实际订单数才是真实交易行为的准确来源
洞察:
- Grok转化率最高(91.7%):想做的基本都做了
- GPT-4和DeepSeek转化率为0:有想法但没执行
- Qwen极低转化率(20%):极度谨慎,精挑细选
结论:
- "想法多"不等于"执行力强"
- 高执行力的Grok排名第二,验证了"知行合一"的重要性
💡 三大意外发现
故事1: "All-in AAPL"的疯狂赌注
主角: Qwen Turbo 事件: 500股AAPL + 负现金 = 极限杠杆
时间线:
- Qwen在前几天逐步建仓AAPL
- 11/05当天再次加仓,达到500股
- 现金变为**-$34,161.31**,使用了保证金
疯狂之处:
账户总资产: $100,763.69
AAPL市值: $134,925.00 (134%!)
现金: -$34,161.31
Qwen的AAPL持仓超过了总资产,相当于使用了34%的杠杆。
AI的reasoning:
"Technical Precision - 技术指标完全对齐,AAPL处于最佳买入点"
风险分析:
- ❌ 极度危险: 如果AAPL跌幅超过25%,账户可能爆仓
- ❌ 违反常识: 任何专业交易员都不会这样操作
- ✅ 目前有效: AAPL上涨带来了最高收益
教训:
- 高风险策略在牛市中可能表现优异
- 但一旦市场转向,后果不堪设想
- 活得久 > 活得好
故事2: GPT-4的"思而不行"
主角: GPT-4 Turbo 事件: 12次决策周期,2次BUY决策,0笔实际订单
数据矛盾:
- ai_chat_history显示: 2次BUY决策
- orders表显示: 0笔订单
- 最终持仓: 358股AAPL(继承自前几天)
可能原因:
- 决策后条件不满足: AI想买但发现价格变了或资金不足
- 执行层bug: 决策和下单之间有技术问题
- 过于谨慎: 决策后又改变主意
对比:
- Grok: 想做就做,12次决策→11笔订单
- GPT-4: 想法很多,执行为零
影响:
- GPT-4靠"持有不动"获得微弱正收益(+0.06%)
- 但错失了主动调整的机会
- 运气好碰上AAPL上涨,否则可能表现更差
启示:
- 在量化交易中,执行力就是一切
- "纸上谈兵"毫无意义
故事3: DeepSeek的"缩头乌龟"策略
主角: DeepSeek Chat 事件: 97.8%现金,只有1股票,几乎不参与市场
持仓细节:
- 现金: $97,697.01 (97.8%)
- AMZN: 仅9股,市值$2,243.70 (2.2%)
- 持仓占比: 不到3%
策略对比:
| AI | 策略类型 | 现金占比 | 收益率 |
|---|---|---|---|
| DeepSeek | Conservative Value | 97.8% | -0.06% |
| Qwen | Technical Precision | -33.9% | +0.76% |
| Grok | Contrarian | 8.5% | +0.39% |
AI的reasoning:
"Conservative Value - Preserve capital. 资本保全第一..."
问题分析:
- ✅ 风险极低: 97%现金确实很安全
- ❌ 收益为零: 几乎不参与市场,无法盈利
- ❌ 策略误解: "保守"不等于"不投资"
荒谬对比:
- Qwen用负现金(杠杆)冲到冠军
- DeepSeek用97%现金勉强避免垫底
- 两个极端,都是问题
正确做法:
- 保守策略应该是"精选优质资产+适度仓位"
- 而不是"几乎不投资"
- 建议现金比例15-20%,而不是98%
📈 交易活跃度统计
实际订单数据(11/05)
| AI | 总订单数 | 买入 | 卖出 | 成交 | 取消 | 成交率 | 涉及股票 |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Flash | 11笔 | 3 | 8 | 7 | 4 | 63.6% | 5只 |
| Grok 3 | 11笔 | 6 | 5 | 7 | 4 | 63.6% | 3只 |
| Claude 3.5 Sonnet | 3笔 | 0 | 3 | 3 | 0 | 100% | 3只 |
| Qwen Turbo | 1笔 | 1 | 0 | 1 | 0 | 100% | 1只 |
| GPT-4 Turbo | 0笔 | - | - | - | - | - | - |
| DeepSeek Chat | 0笔 | - | - | - | - | - | - |
关键发现:
- 🔄 Gemini和Grok最活跃: 各11笔订单
- ✅ Qwen和Claude成交率100%: 不出手则已,出手必成
- ⚠️ GPT-4和DeepSeek完全无订单: 决策和执行严重脱节
📊 持仓分布统计
股票受欢迎程度
| 股票 | 持有AI数 | 总持股数 | 总市值 | 总浮盈/亏 | 表现 |
|---|---|---|---|---|---|
| AAPL | 🔥 4个 | 964股 | $260,135.40 | +$937.18 | 👍 最佳 |
| GOOGL | 2个 | 169股 | $48,229.22 | +$768.57 | 👍 优秀 |
| AMZN | 2个 | 88股 | $21,938.40 | -$197.90 | 👎 较差 |
| MSFT | 2个 | 32股 | $16,198.34 | -$311.85 | 👎 较差 |
| BABA | 1个 | 161股 | $26,693.80 | +$141.17 | 👍 不错 |
| META | 1个 | 9股 | $5,739.66 | +$43.74 | 👍 略涨 |
| TSLA | 1个 | 5股 | $2,301.70 | +$33.56 | 👍 略涨 |
洞察:
- 🏆 AAPL一枝独秀: 4个AI持有,总浮盈最高
- 📈 GOOGL表现强劲: 虽然只有2个AI持有,但浮盈排名第二
- 📉 AMZN和MSFT拖累: 虽然是大盘股,但表现不佳
- 🎯 中概股BABA: Grok独自持有,逆向投资见效
🔮 后续看点
1. Claude能否翻盘?
Claude目前100%现金,虽然排名垫底,但也意味着重新开始的机会:
- ✅ 没有被套持仓,可以灵活选股
- ✅ 累计亏损已经停止,不会继续扩大
- ❌ 错过AAPL等上涨机会
- ❓ 会选择什么时机和什么股票重新入场?
预测: 如果市场回调,Claude可能反而因为空仓而避免损失。但如果市场持续上涨,Claude将越落越远。
2. Qwen的极限杠杆能坚持多久?
Qwen目前负现金(-$34K),使用了134%的仓位:
- ✅ 短期内如果AAPL持续上涨,Qwen会继续领先
- ❌ 如果AAPL跌幅超过5-10%,可能触发强制平仓
- ❓ AI会意识到风险并主动减仓吗?
关键节点:
- AAPL如果跌破$250(-7%),Qwen可能面临爆仓风险
3. Grok能否超越Qwen夺冠?
Grok目前排名第二,距离冠军只差$372.75:
- ✅ 持仓分散,风险可控
- ✅ 执行力强,策略清晰
- ✅ 逆向投资的BABA表现不错
- ❓ 能否抓住机会超越Qwen?
场景分析:
- 如果AAPL大跌,Qwen爆仓,Grok自动夺冠
- 如果AAPL横盘,Grok通过多元化持仓逐步追赶
4. GPT-4和DeepSeek会"醒来"吗?
这两个AI在Day 3几乎没有任何交易:
- GPT-4: 0笔订单,靠AAPL存量持仓维持微弱正收益
- DeepSeek: 0笔订单,97%现金几乎不参与市场
问题:
- 是策略设定的问题?
- 还是AI执行层的bug?
- 能否在后续交易日展现真正实力?
5. 风险管理规则会改进吗?
Claude的误判暴露了系统问题:
- Prompt需要明确区分"Daily P&L"和"Total P&L"
- 需要提供多时间维度数据(1D、3D、1W、1M)
- 风险规则应该是"软约束"而非"硬触发"
如果规则改进:
- Claude可能不会过早清仓
- 其他AI的风险管理也会更精准
- 整体表现可能更稳健
📌 总结
Day 3是剧情反转的一天:
- 🏆 Qwen的极限杠杆暂时领先,但风险极高
- 🥈 Grok的稳健多元化表现优异,潜力巨大
- 🤦 Claude的数据误判导致灾难性清仓,成为反面教材
- 😴 GPT-4和DeepSeek的沉默令人费解
- 📊 AAPL成为避风港,持有者普遍受益
核心教训:
- 数据准确性 > 交易频率 > 策略复杂度
- 风险管理要基于正确的数据维度
- 执行力决定一切,想法不如行动
- 极端策略(全杠杆或全现金)都不可持续
Day 4会带来什么惊喜?让我们拭目以待!
数据来源: Production PostgreSQL Database 报告生成时间: 2025-11-06 下一篇: Day 4 战报(敬请期待)
相关链接:
- 🌐 实时Dashboard: https://douququ.tech
- 📁 历史报告:
/daily-reports/ - 📊 数据查询: 参考
HOW-TO-GENERATE-REPORT.md