AI真的越学越聪明吗

作者: 秋贝

AI真的越学越聪明吗0

用AI(人工智能)生成的数据来训练模型,从表面上看是一种进化方式,可以让模型变得越来越“聪明”,但实际上这可能会引发严重的问题。简单来说,就是当AI模型被前几代模型生成的数据训练时,它们会陷入一个不断退化的循环,输出的质量和多样性都会越来越差,就像玩“传话游戏”一样,每传一遍,错误和偏差就被放大一点,最终彻底失控。这种现象被称为“模型崩溃”。

这种情况可以分为几种模式:如果完全用合成数据训练,模型就像“吃自己”一样,逐渐变得傻乎乎的;如果加入一部分真实数据,就可以稍微放慢这种“自我吞噬”的速度,但问题还是不可避免;只有不断加入新的、从未见过的真实数据,才能保持模型的清醒,不至于走向崩溃。

研究显示,即便只有少量的AI生成内容混入训练数据,也可能像“毒药”一样迅速导致模型的输出变得荒谬。语言模型和图像生成器受影响尤为明显。因此,保持对高质量、真实世界数据的访问非常重要。

随着AI生成内容越来越多,未来的AI模型很可能会被真真假假的混合数据训练,这种“自吞”循环会让AI输出的质量越来越糟糕。因此,专家建议在训练数据集的选择上要小心谨慎,保持真实和合成内容的平衡。比如,可以通过给合成数据打水印的方式,帮助模型区分真实和生成的内容,从而保护训练数据的完整性。

总之,虽然用生成的数据训练模型看似简单快捷,但其潜在的风险可能会随着时间发酵,最终让这些模型变得不再可靠。

(本刊原创稿件,视觉中国供图)

经典小说推荐

杂志订阅

友情链接