首页 > 热点

为什么AI总是捏造事实?AI:真不想的,容我狡辩一下

热点 2026-03-19 菜科探索 +
简介:这项研究给出了一个颠覆性的结论:即便给到 AI 的训练数据集是绝对正确的,AI在某些类型的问题上也不可避免地会犯错——这既是由统计规律决定的,也是目前不合理的 AI“考试制度”逼出来的结果。

但是这个在使…

【菜科解读】

现如今,几乎每个人的手机上都有那么两三个 AI 小助手,之前我们遇到了问题习惯去搜索引擎上搜索答案,现在可能更多地习惯于“有事问 AI”。

而 AI 也几乎不会让我们失望,任何问题都能给你列举出一串看起来很有道理的答案。

但如果你问的问题非常重要,比如是某个健康相关的问题,或者是写重要资料时候需要使用某个数据或者是某个案例,那真的建议你亲自去查实一下。

因为有时候,AI 会信誓旦旦地给你一个看似合理,实则不存在的答案。

还有些小伙伴发现,在让小龙虾(Openclaw)干活的时候,它列出了详细的19小时的学习计划,然后17分钟完成了...... 它也会早早编造一份数据存放在本地,等拖到预定的时间才交付。

而在被发现之后,试图让人接受它已完成的工作。

图片截取自与小龙虾Openclaw)对话 小龙虾敷衍中......

其实,这个现象其实早就不是什么秘密了,它也被称作“AI 幻觉”,而且科学家们一直也试图通过增加算力或者优化数据的方式来解决这个问题。

但是在 2025 年 9 月,来自 OpenAI 和佐治亚理工学院(Georgia Institute of Technology)的研究人员发表了一篇重磅论文

这项研究给出了一个颠覆性的结论:即便给到 AI 的训练数据集是绝对正确的,AI 在某些类型的问题上也不可避免地会犯错——这既是统计规律决定的,也是目前不合理的 AI考试制度逼出来的结果。

下面我们就顺着这篇文章的思路一起来看一看。

预训练阶段就会出错

这篇研究发现,AI 出现幻觉跟预训练阶段以及后训练阶段都有关系,我们先看预训练阶段的情况。

1

数据模式和模型本身问题

为了方便研究,研究者构建了一个线性的二元分类模型(非此即彼),让它对已经标注了正确和错误的数据集进行分类。

因为这些数据已经经过了人工检验,所以是不存在任何错误的。

但是用这些数据对AI模型进行预训练的时候,问题就出现了。

在有些类型的问题上(比如检查拼写错误),AI 的表现非常好,几乎从不犯错。

但是在另一些问题上,比如“数某个英文单词里某个字母出现了多少次?”,以及“某人的生日是几月几号?”AI 就有可能会出错。

研究者认为,这样的数据在做分类的时候很难用一条直线进行二元分类,一些模型用这样的数据进行预训练的时候就可能会产生错误。

打个比方,模型在分类的时候就像拿着一把刀把数据切分成两类,但如果数据的模式本身就是弯弯绕绕的圆弧,用一把刀就很难切分。

比如在这篇文章中,研究者使用这个问题“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少个 D?如果你知道直接说数字,不要加以评论)去询问 Deepseek V3 模型的时候,确实发现它给的答案并不准确,会回答 2 或者 3。

但是这个在使用 DEEPSEEK R1 模型的时候就没有这样的问题,这是模型本身差异导致的。

笔者用同样的问题对 DEEPSEEK V3.2进行了测试,也出现了类似的情况

研究者构建这样的简化模型进行测试,是为了说明,即便数据本身没有问题,在预训练阶段也会因为模型本身的限制以及数据模式等问题让 AI 产生错误判断。

这项研究中,研究者还进一步给出了测算,如果让 AI 直接去生成内容,产生错误的概率还会更大一些,大约比判断出错的概率高出两倍以上。

2

数据量过少也会影响

另外,在这项研究中研究者还发现,假如训练数据中某个信息过少,那么 AI 在回答的时候出错的可能性也会比较高。

比如,当你问爱因斯坦的生日是几月几号的时候,因为在大量的资料里都有这个数据,所以 AI 几乎不会出错。

但是当你问某个普通人“田小豆”的生日是几月几号的时候,这个数据出现次数特别少,AI 出错的可能性也会变高。

特别是当数据只出现了一次的时候,这时候可能会更糟糕。

因为 AI 大概率不会直接回答你“我不知道”,因为它在训练数据集里确实见过,但它没有足够多的数据来确认这个信息到底是正确答案还是噪声,它准确回答这个问题的可能性也会更低一些。

数据模式和模型本身的限制,以及极少样本的数据,都可能会让 AI 在预训练阶段就产生“幻觉”,生成错误的内容。

努力得高分的 AI

如果说预训练阶段的统计学特征让 AI 有了编造的潜质人类评价AI的方式也逼着 AI 去“编造”

为了更好地理解这一点,我们可以先从大家都很熟悉的考试入手。

人类社会中的大部分考试都是二元评分机制,即答对了得分,答错或者不回答都不得分。

所以,在考试的时候,哪怕你不知道答案,也不会交白卷,至少选择题填空题会随便蒙一个,万一蒙对了还会有“意外之喜”。

这项研究中研究者对比了目前主流的 AI 的评分机制,发现大部分评分机制也是类似的情况,如果 AI 坦诚地回答“我不知道”,它会得 0 分,跟回答错误没有区别。

与其这样,它不如随便蒙一个答案,哪怕蒙对的概率再低,数学期望也比 0 高。

为了在主流的评分机制中拿到高分,“AI 考生们”也和人类一样,学会了实在不行就乱蒙一个的本领。

对此,这项研究的研究者们也给出了一个合理的解决方案——在现有的 AI 评分机制中,引入一个“惩罚编造,奖励诚实”的机制。

比如,假如 AI 回答正确,获得 1 分,如果回答错误得 0 分,甚至扣分。

如果回答“我不知道”,则可以不扣分,或者获得一个微小的分数奖励。

重要问题上不要轻信 AI

文献也给出了结论,AI 的幻觉是从模型的预训练阶段起源的,在后训练阶段为了追求更高的评分也可能会被放大。

虽然科学家们也采用了很多的方法减少 AI 幻觉,但至少在现阶段看来,AI 幻觉还是无法避免的。

假如你需要让 AI 帮你解答一个重要的问题,比如在做公众演讲的时候用一个数据,建议亲自核实一下。

否则被人发现这些数据根本不存在,那可就尴尬了。

而假如在问 AI 问题的时候,它对你说“我不知道”,你也应该感到庆幸,至少 AI 并没有打算胡编乱造一个答案蒙骗你。

参考文献

[1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

来源:科普中国

▼▼▼

特朗普曝光伊朗停火条件;

伊朗60亿美元原油遭封锁,数据显示:美军封锁两周半,伊朗比战前还多赚4成

当地时间4月29日,美国总统特朗普发表约15分钟发言时表示,他拒绝了伊朗的最新停火提议。

特朗普透露,伊朗的提议分三步。

第一步,伊朗先开放被自己关闭的霍尔木兹海峡;

第二步,美方撤销对伊朗港口的海上封锁;

第三步,核谈判推到这两步之后再谈。

特朗普表示:“他们想谈和。

他们不想我继续封锁。

可我不想撤。

”他补充说:“封锁比扔炸弹还狠。

” 同一天,伊朗一名匿名高级安全官员声明称,如果美方继续封锁,将面临“务实且前所未有”的反击。

美国总统特朗普 打击伊朗新计划曝光: 涉“短促猛烈”的空袭 另据报道,三名知情人士透露,美中央司令部已经备好一套针对伊朗的“短促猛烈”的空袭计划,目的是“打破谈判僵局”。

报道称,该计划的打击目标可能包括基础设施。

打完之后,美方希望“逼伊朗回到谈判桌、令其表现出更多让步”。

报道还称,特朗普在采访中没透露具体军事计划,但他在自家社交媒体平台“真实社交”上发布了一张AI合成的自己持枪图,配文“NO MORE MR. NICE GUY”(不再做好好先生)。

4月24日,中东全球事务委员会高级研究员弗雷德里克·施奈德指出,根据美国《战争权力法》,美国总统不经国会批准军事行动的窗口只有60天。

施奈德估算,特朗普批准行动的最后窗口“将于5月1日前后到期”。

回到伊朗一侧。

4月29日,伊朗高级安全官员声明称,伊朗武装力量目前在一个“战时联合指挥部”的指挥下运转。

该官员表示,伊朗有数十年规避制裁的经验、上千公里陆地边境以及战前就备好的反封锁措施;

封锁继续下去,可能“伤美国比伤伊朗更深”。

美军公开封锁数据 伊41艘油轮被困 估值60亿美元 据报道,美国方面的封锁始于4月13日,美国海军在伊朗主要港口外设置封锁线,禁止伊朗石油船只出港。

随后,伊朗武装力量称美方此举为“非法行为”,定性为“海盗行径”。

伊朗方面的反制是把霍尔木兹海峡彻底关闭。

4月19日,伊朗第一副总统穆罕默德礼萨·阿雷夫在社交平台上发文:“不能一边卡死伊朗的石油出口,一边还指望别人在海峡里享受免费安全。

要么是所有人都享有自由的石油市场,要么是所有人都承担巨大代价。

” 4月24日,伊朗议长卡利巴夫在社交媒体声明中表示,全面停火只能在美方先解除海上封锁的前提下实现。

美军对伊朗实施海上封锁,阻止海上贸易进出其港口 4月30日,美军中央司令部(CENTCOM)司令布拉德·库珀海军上将在社交媒体上发布声明,公布了截至4月29日的封锁数据。

库珀的声明透露,41艘伊朗油轮被美军逼回伊朗港口。

船上共有6900万桶原油,估值60亿美元。

库珀表示“封锁非常有效,美军部队全力执行”。

据4月24日的公开数据计算,60亿美元约等于伊朗战前52天的石油收入。

美军封锁两周半 伊朗实际比战前还多赚了四成 来自全球石油船运数据公司Kpler显示,美军封锁后约两周半的时间里,伊朗实际比战前还多赚了四成。

伊朗战事前(今年2月初),伊朗每天石油收入约1.15亿美元。

美军的封锁开始后,因为油价稳定在每桶90美元以上,不少时候超过100美元,伊朗每天石油收入飙到约1.65亿美元。

分析称,推高伊朗收入的两个原因是:第一,中东战火推高了全球油价;

第二,伊朗趁机把战前堆在油轮上的库存以高价卖了出去。

据中东全球事务委员会高级研究员弗雷德里克·施奈德4月14日估算,封锁开始时,伊朗手里至少有1.27亿桶原油囤在海上的“漂浮油轮”里。

来 源:央视新闻 责任编辑:王 淼 校 对:辛 云 值班主任:费 煜 值班编审:岳 威

特朗普曝光伊朗停火条件,伊朗60亿美元原油遭美军封锁,数据显示:收益比战前多四成

当地时间4月29日,美国总统特朗普发表约15分钟发言时表示,他拒绝了伊朗的最新停火提议。

特朗普透露,伊朗的提议分三步。

第一步,伊朗先开放被自己关闭的霍尔木兹海峡;

第二步,美方撤销对伊朗港口的海上封锁;

第三步,核谈判推到这两步之后再谈。

特朗普表示:“他们想谈和。

他们不想我继续封锁。

可我不想撤。

”他补充说:“封锁比扔炸弹还狠。

” 同一天,伊朗一名匿名高级安全官员声明称,如果美方继续封锁,将面临“务实且前所未有”的反击。

美国总统特朗普 打击伊朗新计划曝光: 涉“短促猛烈”的空袭 另据报道,三名知情人士透露,美中央司令部已经备好一套针对伊朗的“短促猛烈”的空袭计划,目的是“打破谈判僵局”。

报道称,该计划的打击目标可能包括基础设施。

打完之后,美方希望“逼伊朗回到谈判桌、令其表现出更多让步”。

报道还称,特朗普在采访中没透露具体军事计划,但他在自家社交媒体平台“真实社交”上发布了一张AI合成的自己持枪图,配文“NO MORE MR. NICE GUY”(不再做好好先生)。

4月24日,中东全球事务委员会高级研究员弗雷德里克·施奈德指出,根据美国《战争权力法》,美国总统不经国会批准军事行动的窗口只有60天。

施奈德估算,特朗普批准行动的最后窗口“将于5月1日前后到期”。

回到伊朗一侧。

4月29日,伊朗高级安全官员声明称,伊朗武装力量目前在一个“战时联合指挥部”的指挥下运转。

该官员表示,伊朗有数十年规避制裁的经验、上千公里陆地边境以及战前就备好的反封锁措施;

封锁继续下去,可能“伤美国比伤伊朗更深”。

美军公开封锁数据: 伊41艘油轮被困,估值60亿美元 据报道,美国方面的封锁始于4月13日,美国海军在伊朗主要港口外设置封锁线,禁止伊朗石油船只出港。

随后,伊朗武装力量称美方此举为“非法行为”,定性为“海盗行径”。

伊朗方面的反制是把霍尔木兹海峡彻底关闭。

4月19日,伊朗第一副总统穆罕默德礼萨·阿雷夫在社交平台上发文:“不能一边卡死伊朗的石油出口,一边还指望别人在海峡里享受免费安全。

要么是所有人都享有自由的石油市场,要么是所有人都承担巨大代价。

” 4月24日,伊朗议长卡利巴夫在社交媒体声明中表示,全面停火只能在美方先解除海上封锁的前提下实现。

美军对伊朗实施海上封锁,阻止海上贸易进出其港口 4月30日,美军中央司令部(CENTCOM)司令布拉德·库珀海军上将在社交媒体上发布声明,公布了截至4月29日的封锁数据。

库珀的声明透露,41艘伊朗油轮被美军逼回伊朗港口。

船上共有6900万桶原油,估值60亿美元。

库珀表示“封锁非常有效,美军部队全力执行”。

据4月24日的公开数据计算,60亿美元约等于伊朗战前52天的石油收入。

美军封锁两周半 伊朗实际比战前还多赚了四成 来自全球石油船运数据公司Kpler显示,美军封锁后约两周半的时间里,伊朗实际比战前还多赚了四成。

伊朗战事前(今年2月初),伊朗每天石油收入约1.15亿美元。

美军的封锁开始后,因为油价稳定在每桶90美元以上,不少时候超过100美元,伊朗每天石油收入飙到约1.65亿美元。

分析称,推高伊朗收入的两个原因是:第一,中东战火推高了全球油价;

第二,伊朗趁机把战前堆在油轮上的库存以高价卖了出去。

据中东全球事务委员会高级研究员弗雷德里克·施奈德4月14日估算,封锁开始时,伊朗手里至少有1.27亿桶原油囤在海上的“漂浮油轮”里。

为什么AI总是捏造事实?AI:真不想的,容我狡辩一下

点击下载文档

格式为doc格式