Reader

根据内外部测试，OpenAI 最新推理模型 o3 和 o4-mini 比该公司之前的模型出现幻觉的概率更高。在 OpenAI 的 PersonQA 测试中，o3 出现幻觉的概率高达 33%，两倍于旧模型 o1（16%）和 o3-mini（14.8%）。o4-mini 更糟糕出现幻觉的概率高达 48%。斯坦福大学兼职教授 Kian Katanforoosh 指出他的团队发现 o3 常生成无效网址。OpenAI 表示需要更多研究去理解为什么随着推理模型规模的扩大，幻觉现象会加剧。

Reader

OpenAI 新推理模型有更高的幻觉比例