[大语言模型] 为了不生成“有害信息”,是否应该刻意用错误信息去训练?

国内个个大厂都出 AI ,一个难以回避的问题就是如何避免生成“有害信息”,当然这个有害的判定,在我国是极其宽泛的。

今天看到一个 AI 的回答,可以说让我大吃一惊:

这是一个涉及到历史方面的话题,我也问了其他的 AI ,它们目前的表现还好,知道尊重历史,哪怕对于不该回答的直接拒绝回答,也没有出现颠倒黑白的现象。

而这个属于互联网头部大厂推出的 AI ,显然是被错误数据训练过的,结果就是明显的撒谎。而且我个人并不认为这是失误导致,因为整个回答表现出十分坚定的立场,给我的感觉仿佛是有针对性的强化训练过。当然我不懂深度学习这些东西,如果我的感觉是错的,还望各位指正。