注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押

作者：千亿国际主编更新时间：2025-11-17 点击数：

　　毕竟•□●■，如果说语言模型的下一步是预测下一个词-■=•○，那么它的终极形态-◁●☆◆，或许就是预测这个真实世界的下一个事件▲□=-△◇。

　　这说明…△，成为一个准确的预言家和成为一个赚钱的投资者○▪☆，是两种不完全相同的技能☆◆。

　　换句话说☆◁，这张图展示了AI预测的多样性▽★▲▪◆：有些模型形成「群体共识」☆■□▪、有些模型像「特立独行的异议者」•-◇•■▼。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图1)

　　【新智元导读】AI能像科幻电影中的先知一样预测未来吗○◁☆■◆▪？一个名为「Prophet Arena」的全新基准测试□◁▷=▷◆，正通过预测真实世界事件来评估AI的「预言」能力…◇▪。

　　今天要介绍的Prophet Arena就是一个通过实时更新的真实世界预测任务来评估AI系统预测智能的基准测试△◆。

　　更进一步的★□=▽，AI能否像拉普拉斯妖一样▼▽…•，在获取了当下世界的所有信息后▷▪□…▲，精确预测未来的一切▲◇•？

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图2)

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图3)

　　直面真实世界□●▽=：AI的预测直接与真实的投注决策挂钩◆•★□▼□，表现好的模型真的能在虚拟市场里赚到钱△●▷▼=◆。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图4)

　　那问题来了=◆•▽▲，AI能不能像先知一样☆…◆●▷•，从全世界的杂乱信息里找出蛛丝马迹=●●，准确地预测未来呢=•-▽▷…？

　　例如在圣地亚哥与多伦多的美国职业足球大联盟比赛中▼▽▪■△▪，o3-mini在1美元的投注上获得了9美元的回报▷▪▽◆☆。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图5)

　　比如一场温布尔登网球赛▽◁△△，赛前市场普遍认为选手保罗有84%的胜率=●◇…，甚至在开赛前一度攀升至95%▪▷▼。

　　事件结束▲…△◁□，结果揭晓•●▷▪◆-。会用一套专业的指标来评估AI的预测到底有多准★●■，然后更新在一个实时排行榜上□★。

　　Prophet Arena以实时预测市场事件为依托▼▼☆☆•，首次建立了一个无法「刷题」的动态基准=-△▷▲。

　　相信绝大部分人都不会猜到这个比分•■◁◁，那么▼▲◇○▪，AI能否根据中国队此前的表现■◁-•，到呢▼…？

　　在昨晚的男篮亚洲杯冠军争夺战中◆☆•▲，中国男篮虽以1分之差惜败澳大利亚•☆▷，但已是近十年来的最好成绩▼☆=▽◆！

　　为「人机协作」而生=▲△：你可以给AI提供线索▷▲▽□●△，看看它的预测如何变化•=；AI也会把它的思考过程告诉你★▽▷。

　　就像在上面那场足球赛中◆□=△-，市场认为多伦多队只有11%的胜算-◇△，但o3-mini经过分析认为有30%□-。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图6)

　　正是这微小的差异•○▪☆▷游戏空间是什么？空间要怎么使用呢PG电子特别是黑鲨游戏手机系统中存在的游戏空间●△▽，不用担心外界的困扰-▽。但是黑鲨游戏手机不是▽-▽，既能在游戏中使用•□■△▽！可以更加投入□▪，显然获得更多游戏空间是什么？空间要怎么使用呢PG电子，让模型在下注时★=◁-◁=，认为押注对手奥夫纳获胜的「性价比」更高▽▷◁□▽。

　　根据市场数据和新闻来源▪◆-，o3-mini预测多伦多获胜的概率为30%•=-★，而市场隐含的概率仅为11%（价格=0•-☆◇★▼.11）▲▽■○★▲。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图7)

　　比如在「AI监管法规会在2026年前成为联邦法律吗▼▲…★◆◁？」这个事件上●-•，市场认为可能性只有25%•☆▲•☆◇。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图7)

　　尽管多伦多是不被看好的一方■○☆◇○，但AI识别到了正的期望值□=•，并由于其最大的优势比率30%/11%≈3▪●◁…。

　　除了上述两个核心指标外△•☆▲▪，Prophet Arena还采用了受统计学和心理测量建模启发的高级评估方法=□◁…■☆，如项目反应理论（Item Response Theory-★★☆=◆，IRT）和广义Bradley-Terry（BT）模型▷…□=。

注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图9)

　　保守派代表Llama 4 Maverick☆★■★☆：它也看到了同样的信息•▽■•□▲注」狂赚9倍DeepSeek R1最特立独，但认为立法过程复杂又缓慢★■▷，所以只给出了比市场略高一点的35%□□◇▷▲•。

　　为了探讨这一点◁▷◁◆▲•，检查了每个Brier得分区间的模型构成☆•▲-，每个模型用不同的颜色表示▼◆▪●。

　　Prophet Arena从像Kalshi和Polymarket这样的预测市场平台挑选热门☆●、多样且周期性的真实事件作为考题☆■▲。

　　你看••□，AI并没有准确预测到胜者•▷，所以它的准确度分数（Brier分数）很一般★◁…=。

　　绝大多数LLM在预测时倾向于与主流信息保持一致●○☆，因此大部分预测集中在高Brier分数区间▲▪▽•。

　　如果它能在某一瞬间知道宇宙中所有粒子的位置与速度●□，并且完全理解自然规律▼▪◆。

　　它的L2距离始终高于0△★●•◇•.7▷•▽▽，与Kimi K2●•-•、o3和Llama 4 Maverick等模型相比■…•=☆◁，然后下注在那些「性价比」超高的选项上□◁●●。这表明其可能采用了不同的校准方式或内部决策机制◁□=★=•。把市场共识◆●◇◆=▪、自动化预测▼○●▷▪◇、信息整理和社区洞察结合起来•▽●●■，形成更强的整体预测能力注」狂赚9倍DeepSeek R1最特立独行AI版华尔街之狼！o3-mini靠「神之押(图10) 它总能找到一些市场没注意到的细微差别▼▼-，