DeepSeek为何很“懂”人心
作者: 陈经很多人以为,以DeepSeek为代表的大模型看见用户的问题后,会像人一样思考,然后开始回答。其实不是这样的。大模型推理时的工作机制很朴素,甚至有些“暴力”。它们没有“懂”或“不懂”的概念,面对任何提示,都直接吐出一个个词。无论怎么输入,都会给出计算结果。也就是说,大模型本质上是在做计算。
但神奇的是,它们的计算结果和人们的提示对得上,很智能,甚至显得很有灵性,似乎很“懂”人们的内心。
这是因为,在训练中,开发者会让人类给大模型的一些输出打分,比如DeepSeek会找中文博士来打分;再用这些打分素材开发出一个“打分器”;接着用它对大模型的输出不停地打分,用分数训练大模型的系数,让它的输出得分越来越高。
事实上,在实践中,人类容易打分的是语言形式,以及相关性。如果大模型回答得语言错乱,或答非所问,立刻就会被打低分。所以,大模型的语言能力被训练得非常强,而且答的就是人们想问的领域。这就是人们的使用体验——它们真能聊,梗都接得上。人们也会由此惊叹大模型的能力。但是如果大模型答得有错误,或者编造了,就不容易被发现。
基于上面的原因,人类开发出来的“打分器”也会更关注语言形式的错误、相关性问题,以及一些简单的错误。结果是,大模型输出了像模像样的回答,虽然是错误的、编造的,但打分器给的分还挺高。这样的结果出现在人类用户面前,就是“AI幻觉”。
以DeepSeek为例,如果用户使用“联网搜索”和“深度思考”,就能减少幻觉。即便如此,也还是要小心它的输出,要对一些数据和事实进行核查,不能失去警惕。
大模型的幻觉会越来越少,但不会消失。只要我们当好主人把好关,大模型就会成为我们很好的帮手。
(大刘摘自《中国青年》2025年5月刊,本刊节选,视觉中国供图)