互联网向来对“翻车现场”乐此不疲,而我们确实也见识了不少。眼下,AI 大概是最容易“翻车”的对象了——无论是 AI 生成的图片里手指数量出错,还是 AI 驱动的搜索结果把讽刺当成了事实。最近,谷歌因为 AI Overview(AI 概览)对无意义短语编出“奇幻解释”而被推上了风口浪尖。这到底是怎么回事?这是否真的是个问题?我们又能否期待它变得更好?谷歌已经就此现象作出了一些解释。

如果你还没听说这事儿,现在有很多人在用 Google 搜索询问各种短语的含义。对于真正的习语来说,这其实挺有帮助的。但问题在于,谷歌也很乐于“凭空发挥”——哪怕用户输入的根本不是真正的短语,只是一堆没有意义的胡言乱语。比如你问 Google:“空猫值一条狗的赎金”是什么意思,它也会拼尽全力去“解读”这个句子,哪怕那是在“榨干石头里的血”。
我们就此联系了谷歌,看看事情的来龙去脉如何。以下是该公司提供的官方声明:
当用户进行无意义或基于错误前提的搜索时,我们的系统会尝试根据有限的网页内容提供最相关的结果。这一点适用于整个搜索功能,在某些情况下,AI 概览也会被触发,旨在提供有用的上下文信息。AI 概览的设计初衷是展示由顶级网页结果支持的信息,其准确率与“精选摘要”等其他搜索功能相当。
问题的关键似乎在于,哪些搜索属于“错误前提”其实并不总是那么显而易见。语言是不断演变的,新词新表达层出不穷。而且人们常常会听错或记错某些说法,因此他们在搜索时可能并不会完全按照原本的表达方式来输入。
从谷歌在这些无意义查询旁边提供的解释来看,可以明显看出,它仍然是以一种逻辑性的方式在处理这些内容,试图拆解每个部分,并推测出用户可能想表达的意思。

说实话,它的表现其实并不算太差。对于一些新颖的表达,AI 概览至少有足够的资源可以调动,从而有机会解析出用户想表达的真正含义。那么,问题来了:我们该如何区分哪些是真正的新表达,哪些只是毫无意义的胡言乱语——也就是谷歌所说的“数据空白”(data void)?
这确实很难。谷歌告诉我们,系统只有在搜索具备一定信心、认为生成的摘要既有帮助又具有高质量的情况下,才会展示 AI 概览。而且这种触发机制正在不断优化中。虽然这些“公开翻车”的案例对我们来说看起来或许只是好笑或娱乐,但对谷歌而言,它们却提供了重要的数据,有助于识别 AI 概览在边缘案例中未能如预期运行的情形。
单个“幻觉”式回答或许让人觉得好笑,但放在谷歌整体 AI 项目的大背景下,我们还是可以看到它的系统确实在努力尝试与用户进行有效沟通。如果我们故意出题刁难它,它偶尔“绊倒”了,又真的该感到惊讶吗?
目前最令人沮丧的一点,也许就是用户很难判断谷歌对某条 AI 概览结果的信心有多高。用户也可能无法第一时间分辨,这到底是谷歌在引用别人的回答,还是它自己在“尽力推测”。谷歌如果能更清楚地向用户传达这一点,这类问题所造成的实际影响可能也就会小得多。