1.AI“胡说八道”现象引起关注,其输出答案并非基于训练数据,而是遵循“我必须根据用户提示词给一个答案”的原则。
2.由于此,AI在未知领域应对可能混乱,甚至“一塌糊涂”,尤其在提示词不清晰或训练数据不准确的情况下。
3.为降低AI“幻觉率”,用户可采取明确提示词、警惕创意感强的AI、设置合适的温度系数等方法。
4.同时,交叉验证重要细节,引导模型减少幻觉,保持对AI回答的警惕。
以上内容由腾讯混元大模型生成,仅供参考
关于AI,相信很多人和鱼圈家长有类似的疑惑👇:
今天这篇文章,尽可能以简单易懂的方式,将其中的道道向大家解释清楚。仔细看完后,各位家长就会明白,我们对AI的误解有多大!
一颗真心是如何被DeepSeek糊弄的
春节期间,鱼圈一位教研老师下载DeepSeek后,提的第一个需求是,让它写一篇陈冲新书《猫鱼》的书评。
没多久,DeepSeek就回复了一篇表达还蛮有意境的书评👇:
乍一看,感觉它是在写教研老师所指的那本《猫鱼》,作者陈冲年轻时就选择了出国演戏,DeepSeek的文字则刚好涉及到了异乡人文化身份焦虑等主题,存在几分契合。
但仔细一瞧,发现,通篇缺乏细节,车轱辘话来回说,非常空洞。
《猫鱼》作为一本人物自传,其中充满丰富生动的故事细节,DeepSeek却没有任何具体呈现,甚至连主人公陈冲的名字都不曾出现一次。
感觉其中“有诈”,教研老师给出更明确的提示——三联书店出版的陈冲的《猫鱼》,结果DeepSeek回复,全网查无此书。
教研老师很疑惑,为什么一本公开且被许多媒体报道过的出版物,DeepSeek会不知道?于是再进一步追问,破案了:
《猫鱼》上市时间在2024年,而当时未启动“联网搜索”的DeepSeek知识截止时间在2023年10月。
也就是说,DeepSeek根本无从检索和《猫鱼》相关的信息,不知道才是正确回复。
此时,教研老师有一种被“糊弄和欺骗”的感觉,立马责问道:既然你不知道,为什么一开始给了一篇书评,仿佛知道一样??
DeepSeek回了一堆让人一知半解的玩意儿,不过其中第二、三条揭示了AI答题的部分真相👇:
简单而言,AI回答问题,并不是我们以为的,基于训练的大量数据、经过比对,然后给出准确真实的回复,它首先遵循的原则是——我必须根据用户提示词给一个答案。
但这个过程中,它可能会遇到超纲题,比如上文让DeepSeek写《猫鱼》,此时,它会在很大程度上,开启一本正经胡说八道模式。
欢迎各位家长文末留言分享,你的一颗真心被AI糊弄的那一刻!
AI为什么会“胡说八道”?
在AI界,有个名词专门形容AI“胡说八道”这一现象——AI幻觉,指生成式AI系统输出的数据看似合理,实则存在错误或逻辑混乱。更棘手的是,AI常以自信的口吻呈现这些错误信息,使得人类用户难以辨别真伪。
“AI幻觉”案例俯拾皆是。
哥伦比亚新闻评论近期研究显示,在被要求辨识200条来自主流新闻网站的引文时,ChatGPT错误率高达76%。更令人担忧的是,在153次错误应答中,仅有7次向终端用户提示了不确定性。
即便是专业工具也未能幸免。斯坦福大学RegLab实验室发现,LexisNexis和Thomson Reuters 定制的法律AI工具,在基准测试中每6个问题会出现至少1次信息错误。
为什么AI会出现“幻觉”?这里涉及到AI输出的一些底层逻辑。
划重点:
在训练语言模型过程中,AI能记住部分信息,但不多,或者只是记了个“大概”,它把主要精力花在了哪些词语(字)是如何与其他词语(字)关联的。
AI最终给出的答案更多是基于统计学的,而非对世界的深刻理解。
举个例子。
很多人都有学其他语言歌曲的经历,比如粤语或者英语。
但最终学会唱的人,未必都知道歌词在讲什么,可能通过不断重复模仿,仅仅记住了发音。
生成AI在某种程度上,就类似这样学歌的人,只是相比人类,它能在短时间内学习到无数种音韵组合的排列“模式”,并在最后基于统计学,得出哪些音节常常一起出现。
也有部分行业内的人把AI大型语言模型的本质视为一个填空机器。
我们给的提示就像空格前的句子,AI则尝试推测下一个最可能出现的词是什么。
比如写“我的妈妈有一头__”,AI会根据海量作文选中出现概率最高的“乌黑长发”,而不是特别的“彩虹色脏辫”。
一旦提示词没有包含常见的词语序列,AI就容易“胡说八道”或者陷入混乱。
这里,鱼圈再分享一个真实案例,帮助大家理解这一点。
2016年,韩国职业围棋九段棋手李世石以1:4落败DeepMind最强围棋Al——AlphaGo,虽然最终人类输给了AI,但其中李世石击败AlphaGo的那场对决仍旧让人印象深刻,以至于李世石感叹:“我从来没有因为赢得一个单场比赛而得到这么多的掌声。”
因为,这是AlphaGo出战以来第一次败给人类选手。
美国记者凯德·梅茨详细记录下了当时的一些细节:
“在第四盘比赛的第77手之后,李世石又僵住了。这是第二盘比赛的重演,只是这次他花了更长的时间来思考下一步。棋盘的中央满是棋子,有黑的也有白的,他盯着这些棋子看了将近20分钟,他紧抓着自己的后脖颈,来回摇晃。最后,他把一颗白子放在棋盘中央的两颗黑子之间,有效地将两块黑棋一分为二。
AlphaGo陷入了困境。随着每盘比赛的进行,AlphaGo会不断重新计算自己获胜的概率,在控制室的平板显示器上显示一个百分比。
在李世石下出第78手时,机器应对了非常差的一手,它获胜的概率立即暴跌。从那以后,这台机器的赔率持续下降,在下了近5个小时后,它认输了。”
许多人好奇,AlphaGo为什么会输掉这一局。
那场比赛结束两天后,DeepMind创始人哈萨比斯解释了机器的崩溃,“AlphaGo认为没有人会走第78手。它计算,这一手出现的概率是万分之一。”
从这个案例中,我们会发现,AI有非常强大的一面,但这强大的一面又构成了它的局限。
它在已知的可被数据化的世界里,绝对让人类望尘莫及,但在未知世界,它的应对很可能是“一塌糊涂”,甚至乱来。
这也是语言大模型会“编造”信息的原因,只不过,它不知道自己是在“编造”。
这是其一。
其二,投喂AI训练的语料库、数据库信息,如果很多是虚假或不准确的,也会干扰AI最终给出的信息准确度。
假设喂给它的语料库中,“地球是平的”这样的表述远远多于“地球是圆的”,且在训练过程中,“地球是平的”没有被清晰标记为“错误”,那么AI最终很可能会输出“地球是平的”这一结论。
而很多时候,表达属性是远超“正确/错误”或“真实/虚假”范畴的,比如“讽刺”,其表面看起来在肯定,其实在否定,它和正不正确,真假无关,这一点,只靠数据训练出来的AI很难觉察。
例如,当谷歌的AI概览功能出现“地质学家推荐食用岩石”的表达时,它并非凭空捏造这些信息。
这个答案源自知名讽刺新闻网站《洋葱新闻》。耐人寻味的是,某地质科学公司网站觉得这个玩笑有趣便转载了该文章,但AI没有领会其中的玩笑,反而将这次转载视为一种权威信号。
经过这样一番了解,我们会有所意识,完全相信AI是多么危险,甚至有点荒唐。
当然不排除随着技术的进步,AI在这些方面的bug会越来越少,但不管它的技术完善到何种程度,人类也不能将对信息的分辨、理解,完全交付AI。
怎么治AI的“胡说八道”?
那么当下,我们可以做些什么?
就目前而言,让AI少一些胡说八道,降低“幻觉”概率还是有些方法论的,但让它完全别胡说八道,比较难。
作为用户:
1.提示词尽可能清晰、明确。
比如使用限制可能输出的提示,包含特定的数字,类似1000字之内;向模型提供相关且可靠的数据来源;给模型分配一个特定的角色,例如:“你是一个技术网站的写手,请写一篇关于X的文章。”
此前,鱼圈让DeepSeek概述一篇文章,一开始提示词给的比较宽泛,结果很多地方它会自行发挥,之后我们进一步给了更具体的提示词,如下:
现在你是一个专业编辑,请基于这个文档中的内容,将它删减为1000字以内,前提是保留核心信息和观点,不要过于结构化,要像一篇流畅的文章,有流畅的过渡。注意,不要自己延伸增加很多文内不存在的内容。
这次,DeepSeek交付的结果,至少80分。
2.警惕“创意感”强的AI
我们常常会被充满“创意”的AI,或者说AI味淡一些AI惊喜到,但如果是查询和事实相关的信息,“创意感”越强的AI一般“幻觉率”也会比较高。
这里涉及到一个工程师端的参数设置——温度系数。
这个系数决定了AI在回答用户需求时允许的随机性。
低温设置意味着AI的输出会与训练数据中包含的材料接近,有时候看着像抄的。
所以,如果我们保障训练数据都是准确的,AI乱给信息的可能性会相对低,不过,它回答“不知道”的概率也会随之提高。
高温设置则允许模型偶尔跳过最可能的下一个词,选择概率较低的组成一个句子。
简言之,给AI更多自主发挥空间。
虽然,高温设置下的AI出来的东西常常很有“创意”,也几乎不说“不知道”,看起来非常能干、乖巧,情绪价值给满,但副作用是,它容易刹不住车,说的话天马行空,且完全不对此负责!
知道这一点,我们在选择AI或者评估AI的回答时,会有所侧重。
如果需要更多创意点子,开更大的脑洞,那可以选择“幻觉率”高一些的AI;如果需要了解客观事实以为某些决策服务,那尽可能选择“幻觉率”低的AI,因为保障信息准确是首要任务。
另外,某大模型团队前工程副总裁李维提出的三点建议,各位家长也可参考:
1.保持警惕:大模型说的话,特别是涉及到事实的,别全信,最容易产生幻觉的地方是人名、地名、时间、地点等实体或数据,一定要特别小心。
2.交叉验证:重要的细节,可上网查查原始资料或询问身边专家,看看说法是不是一致。
3.引导模型:可以在提问的时候,加入一些限定条件,比如“请务必忠于原文”“请核对事实”等等,尽可能引导模型减少幻觉。
总之,如果不想被AI忽悠,请从此刻开始,拿回作为人类的“主体性”!
-END-