AI不会老实说“我不知道”
作者: 贝小戎很多人都在赞叹DeepSeek有多么强大,可以按照阅卷老师的标准批改作文、生成类似的易错题等。但也有很多人注意到,对话式人工智能在回答你的问题时,有时会信口开河、瞎编乱造。比如我问它贝小戎是谁,它会回答说贝小戎是一位财经记者。
《华尔街日报》的一位语言学专栏作家临时编造了一个词——“argumentative diphthongization”,对话式人工智能不仅用了5段话来解释它,还说这个词最早是语言学家Hans Jakobsen在1922年提出来的。其实根本就没有Hans Jakobsen这样一位语言学家。
几天前,我的校友“三叠纪”在微博上说:“想训练DeepSeek给我干活,以‘查找光污染light pollution一词的出处’为题测试它的查文献能力,最后发现是异想天开。它不但不给我认真查,还一本正经地编造假文献,包括虚构作者、期刊名称、标题、页码和文摘。被我屡次揭穿以后,它虚心接受,诚恳道歉,但下一条还是接着编,还给了我一堆无法点击的空网址。最后我自己查到了可靠的说法,给它网址让它认真看(其实网址里已经明确给答案了),结果它看完继续给我编网址里都没提到的内容。最后我直接圈出答案让它仔细看,发现也是徒劳……放弃了……一个毫不让人省心的工具,倒是有不少偷奸耍滑的人味。”
为什么对话式人工智能不老老实实说它找不到答案,说自己不知道呢?
其实,从业者早就发现AI会瞎编乱造。早在2018年,就有了一个专门的词来称呼这个现象,“AI幻觉”——它们似乎总是自信满满,对所有问题回答得头头是道。AI幻觉也是目前AI研究最热门的领域之一。
从设计原理上看,有学者称:“人工智能模型是通过推测下一个最有可能出现的词汇或词素来生成答案的。整个过程本质上是一种基于海量训练的高度精准概率推演。这类系统经过训练后,会以近乎确信的姿态输出最优解,就像考场中面对选择题必须落笔的考生,抑或鸡尾酒会上对答如流的宾客——即便内心存疑也要展现从容。”
再者,对AI模型的训练靠的是让它们吸收和分析大量的信息,而这些信息中没有多少是关于“不懂”的,所以这些模型本质上就不会老老实实地表示自己不知道答案。此外,研究者还要做好平衡,不能让AI经常回答自己不知道,因为在训练它们的数据中也许就有正确答案。
一些顶尖的人工智能研究人员表示,人类应该接受AI幻觉,毕竟人类也有记性不好的时候。而且有研究表明,人类会在不知不觉中用想象填补自己回忆中的空白。谷歌前工程师杰弗里·辛顿曾表示:“我们能减少它的幻觉,但永远无法摆脱它。”
把AI的胡说八道称为它们的幻觉,是不是有点奇怪?很多专家说,这个词把AI拟人化了,本来“幻觉”只是“不受约束的文本生成”的简称,但这个词错误地暗示了“语言模型具有感知和经验”,更合适的叫法应该是“被合成的无依据的文本”。
(大浪淘沙摘自微信公众号“贝书单”,视觉中国供图)