客户端
游戏
无障碍

3

评论

14

10

手机看

微信扫一扫,随时随地看

深入研究完AI“胡说八道”的原理,发现它能说对才是奇迹!

AI划重点 · 全文约3352字,阅读需10分钟

1.AI“胡说八道”现象引起关注,其输出答案并非基于训练数据,而是遵循“我必须根据用户提示词给一个答案”的原则。

2.由于此,AI在未知领域应对可能混乱,甚至“一塌糊涂”,尤其在提示词不清晰或训练数据不准确的情况下。

3.为降低AI“幻觉率”,用户可采取明确提示词、警惕创意感强的AI、设置合适的温度系数等方法。

4.同时,交叉验证重要细节,引导模型减少幻觉,保持对AI回答的警惕。

以上内容由腾讯混元大模型生成,仅供参考

关于AI,相信很多人和鱼圈家长有类似的疑惑👇:

图片

今天这篇文章,尽可能以简单易懂的方式,将其中的道道向大家解释清楚。仔细看完后,各位家长就会明白,我们对AI的误解有多大!

一颗真心是如何被DeepSeek糊弄的

春节期间,鱼圈一位教研老师下载DeepSeek后,提的第一个需求是,让它写一篇陈冲新书《猫鱼》的书评。

没多久,DeepSeek就回复了一篇表达还蛮有意境的书评👇:

图片

乍一看,感觉它是在写教研老师所指的那本《猫鱼》,作者陈冲年轻时就选择了出国演戏,DeepSeek的文字则刚好涉及到了异乡人文化身份焦虑等主题,存在几分契合。

但仔细一瞧,发现,通篇缺乏细节,车轱辘话来回说,非常空洞。

《猫鱼》作为一本人物自传,其中充满丰富生动的故事细节,DeepSeek却没有任何具体呈现,甚至连主人公陈冲的名字都不曾出现一次。

感觉其中“有诈”,教研老师给出更明确的提示——三联书店出版的陈冲的《猫鱼》,结果DeepSeek回复,全网查无此书。图片

图片

教研老师很疑惑,为什么一本公开且被许多媒体报道过的出版物,DeepSeek会不知道?于是再进一步追问,破案了:

图片

《猫鱼》上市时间在2024年,而当时未启动“联网搜索”的DeepSeek知识截止时间在2023年10月。

也就是说,DeepSeek根本无从检索和《猫鱼》相关的信息,不知道才是正确回复。

此时,教研老师有一种被“糊弄和欺骗”的感觉,立马责问道:既然你不知道,为什么一开始给了一篇书评,仿佛知道一样??图片

DeepSeek回了一堆让人一知半解的玩意儿,不过其中第二、三条揭示了AI答题的部分真相👇:

图片

简单而言,AI回答问题,并不是我们以为的,基于训练的大量数据、经过比对,然后给出准确真实的回复,它首先遵循的原则是——我必须根据用户提示词给一个答案。

但这个过程中,它可能会遇到超纲题,比如上文让DeepSeek写《猫鱼》,此时,它会在很大程度上,开启一本正经胡说八道模式。

图片

欢迎各位家长文末留言分享,你的一颗真心被AI糊弄的那一刻!

AI为什么会“胡说八道”?

在AI界,有个名词专门形容AI“胡说八道”这一现象——AI幻觉,指生成式AI系统输出的数据看似合理,实则存在错误或逻辑混乱。更棘手的是,AI常以自信的口吻呈现这些错误信息,使得人类用户难以辨别真伪。

“AI幻觉”案例俯拾皆是。

哥伦比亚新闻评论近期研究显示,在被要求辨识200条来自主流新闻网站的引文时,ChatGPT错误率高达76%。更令人担忧的是,在153次错误应答中,仅有7次向终端用户提示了不确定性。

即便是专业工具也未能幸免。斯坦福大学RegLab实验室发现,LexisNexis和Thomson Reuters 定制的法律AI工具,在基准测试中每6个问题会出现至少1次信息错误。

为什么AI会出现“幻觉”?这里涉及到AI输出的一些底层逻辑。

划重点:

在训练语言模型过程中,AI能记住部分信息,但不多,或者只是记了个“大概”,它把主要精力花在了哪些词语(字)是如何与其他词语(字)关联的。

AI最终给出的答案更多是基于统计学的,而非对世界的深刻理解。

举个例子。

很多人都有学其他语言歌曲的经历,比如粤语或者英语。

但最终学会唱的人,未必都知道歌词在讲什么,可能通过不断重复模仿,仅仅记住了发音。

生成AI在某种程度上,就类似这样学歌的人,只是相比人类,它能在短时间内学习到无数种音韵组合的排列“模式”,并在最后基于统计学,得出哪些音节常常一起出现。

也有部分行业内的人把AI大型语言模型的本质视为一个填空机器。

我们给的提示就像空格前的句子,AI则尝试推测下一个最可能出现的词是什么。

比如写“我的妈妈有一头__”,AI会根据海量作文选中出现概率最高的“乌黑长发”,而不是特别的“彩虹色脏辫”。

一旦提示词没有包含常见的词语序列,AI就容易“胡说八道”或者陷入混乱。

这里,鱼圈再分享一个真实案例,帮助大家理解这一点。

2016年,韩国职业围棋九段棋手李世石以1:4落败DeepMind最强围棋Al——AlphaGo,虽然最终人类输给了AI,但其中李世石击败AlphaGo的那场对决仍旧让人印象深刻,以至于李世石感叹:“我从来没有因为赢得一个单场比赛而得到这么多的掌声。”

因为,这是AlphaGo出战以来第一次败给人类选手。

图片

美国记者凯德·梅茨详细记录下了当时的一些细节:

“在第四盘比赛的第77手之后,李世石又僵住了。这是第二盘比赛的重演,只是这次他花了更长的时间来思考下一步。棋盘的中央满是棋子,有黑的也有白的,他盯着这些棋子看了将近20分钟,他紧抓着自己的后脖颈,来回摇晃。最后,他把一颗白子放在棋盘中央的两颗黑子之间,有效地将两块黑棋一分为二。

AlphaGo陷入了困境。随着每盘比赛的进行,AlphaGo会不断重新计算自己获胜的概率,在控制室的平板显示器上显示一个百分比。

在李世石下出第78手时,机器应对了非常差的一手,它获胜的概率立即暴跌。从那以后,这台机器的赔率持续下降,在下了近5个小时后,它认输了。”

许多人好奇,AlphaGo为什么会输掉这一局。

那场比赛结束两天后,DeepMind创始人哈萨比斯解释了机器的崩溃,“AlphaGo认为没有人会走第78手。它计算,这一手出现的概率是万分之一。”

图片

从这个案例中,我们会发现,AI有非常强大的一面,但这强大的一面又构成了它的局限。

它在已知的可被数据化的世界里,绝对让人类望尘莫及,但在未知世界,它的应对很可能是“一塌糊涂”,甚至乱来。

这也是语言大模型会“编造”信息的原因,只不过,它不知道自己是在“编造”。

这是其一。

图片

其二,投喂AI训练的语料库、数据库信息,如果很多是虚假或不准确的,也会干扰AI最终给出的信息准确度。

假设喂给它的语料库中,“地球是平的”这样的表述远远多于“地球是圆的”,且在训练过程中,“地球是平的”没有被清晰标记为“错误”,那么AI最终很可能会输出“地球是平的”这一结论。

而很多时候,表达属性是远超“正确/错误”或“真实/虚假”范畴的,比如“讽刺”,其表面看起来在肯定,其实在否定,它和正不正确,真假无关,这一点,只靠数据训练出来的AI很难觉察。

例如,当谷歌的AI概览功能出现“地质学家推荐食用岩石”的表达时,它并非凭空捏造这些信息。

这个答案源自知名讽刺新闻网站《洋葱新闻》。耐人寻味的是,某地质科学公司网站觉得这个玩笑有趣便转载了该文章,但AI没有领会其中的玩笑,反而将这次转载视为一种权威信号。

经过这样一番了解,我们会有所意识,完全相信AI是多么危险,甚至有点荒唐。

当然不排除随着技术的进步,AI在这些方面的bug会越来越少,但不管它的技术完善到何种程度,人类也不能将对信息的分辨、理解,完全交付AI。

怎么治AI的“胡说八道”?

那么当下,我们可以做些什么?

就目前而言,让AI少一些胡说八道,降低“幻觉”概率还是有些方法论的,但让它完全别胡说八道,比较难。

作为用户:

1.提示词尽可能清晰、明确。

比如使用限制可能输出的提示,包含特定的数字,类似1000字之内;向模型提供相关且可靠的数据来源;给模型分配一个特定的角色,例如:“你是一个技术网站的写手,请写一篇关于X的文章。”

此前,鱼圈让DeepSeek概述一篇文章,一开始提示词给的比较宽泛,结果很多地方它会自行发挥,之后我们进一步给了更具体的提示词,如下:

现在你是一个专业编辑,请基于这个文档中的内容,将它删减为1000字以内,前提是保留核心信息和观点,不要过于结构化,要像一篇流畅的文章,有流畅的过渡。注意,不要自己延伸增加很多文内不存在的内容。

这次,DeepSeek交付的结果,至少80分。

2.警惕“创意感”强的AI

我们常常会被充满“创意”的AI,或者说AI味淡一些AI惊喜到,但如果是查询和事实相关的信息,“创意感”越强的AI一般“幻觉率”也会比较高。

这里涉及到一个工程师端的参数设置——温度系数。

这个系数决定了AI在回答用户需求时允许的随机性。

低温设置意味着AI的输出会与训练数据中包含的材料接近,有时候看着像抄的。

所以,如果我们保障训练数据都是准确的,AI乱给信息的可能性会相对低,不过,它回答“不知道”的概率也会随之提高。

高温设置则允许模型偶尔跳过最可能的下一个词,选择概率较低的组成一个句子。

简言之,给AI更多自主发挥空间。

图片

虽然,高温设置下的AI出来的东西常常很有“创意”,也几乎不说“不知道”,看起来非常能干、乖巧,情绪价值给满,但副作用是,它容易刹不住车,说的话天马行空,且完全不对此负责!

知道这一点,我们在选择AI或者评估AI的回答时,会有所侧重。

如果需要更多创意点子,开更大的脑洞,那可以选择“幻觉率”高一些的AI;如果需要了解客观事实以为某些决策服务,那尽可能选择“幻觉率”低的AI,因为保障信息准确是首要任务。

图片

另外,某大模型团队前工程副总裁李维提出的三点建议,各位家长也可参考:

1.保持警惕:大模型说的话,特别是涉及到事实的,别全信,最容易产生幻觉的地方是人名、地名、时间、地点等实体或数据,一定要特别小心。

2.交叉验证:重要的细节,可上网查查原始资料或询问身边专家,看看说法是不是一致。

3.引导模型:可以在提问的时候,加入一些限定条件,比如“请务必忠于原文”“请核对事实”等等,尽可能引导模型减少幻觉。

总之,如果不想被AI忽悠,请从此刻开始,拿回作为人类的“主体性”!

-END-

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部