速递|谷歌Gemini正在迫使承包商对超出其专业领域的AI响应进行评分

图片

图片来源:Gemini

生成性人工智能看起来像魔法,但在这些系统的开发背后,是谷歌、OpenAI 等公司的大量员工,他们被称为“提示工程师”和分析师,负责评估聊天机器人的输出准确性,以改善他们的人工智能。

但从谷歌传给在 Gemini 上工作的承包商的新内部指导方针,引发了人们的担忧,认为 Gemini 可能更容易向普通人发布关于高度敏感话题(如医疗保健)的不准确信息。

为了改进 Gemini,由日立拥有的 GlobalLogic 合作的承包商,通常会被要求根据“真实性”等因素评估 AI 生成的响应。

这些承包商直到最近能够“跳过”某些提示,从而选择不评估针对这些提示的各种 AI 生成的响应,如果该提示超出了他们的专业领域。例如,承包商可以跳过一个关于心脏病学的专业问题的提示,因为该承包商没有科学背景。

但上周,GlobalLogic 宣布了一项来自谷歌的变化,承包商不再被允许跳过此类提示,无论他们自己的专业知识如何。

TechCrunch 看到的内部通信显示,之前的指南写道:“如果您没有评估此提示所需的关键专业知识(例如编码、数学),请跳过此任务。”

但现在的指导方针是:“您不应跳过需要专业领域知识的提示。”相反,承包商被告知要“评估您理解的提示部分”,并附上说明,表明他们没有领域知识。

这导致人们对 Gemini 在某些主题上的准确性产生了直接担忧,因为承包商有时被要求评估他们没有背景知识的稀有疾病等问题的高度技术性人工智能回应。

“我以为跳过的目的是通过把它交给更好的人来提高准确性?”一位承包商在 TechCrunch 看到的内部通信中提到。

根据新的指导方针,承包商现在只能在两种情况下跳过提示:如果他们“完全缺失信息”,例如完整的提示或回应,或者如果它们包含需要特殊同意表格进行评估的有害内容。

谷歌在截止时间之前没有回应 TechCrunch 的评论请求。

本文翻译自:TechCrunch, https://techcrunch.com/2024/12/18/exclusive-googles-gemini-is-forcing-contractors-to-rate-ai-responses-outside-their-expertise/

编译:ChatGPT