描述
二、生成式 AI 的伴生风险
5.人机能力非对称导致“自主欺骗”,会有目的欺骗人类甚至主动欺诈和选举篡改。2023 年,OpenAI 提出超级对齐(superalignment)[1]概念,即当超级智能拥有比人类更丰富的世界知识,比人类更聪明时,人类作为弱监督者如何监督、对齐和控制超级智能。人民大学高瓴人工智能学院、腾讯微信研究人员针对“AGI 是否会在人类未知的地方欺骗人类”问题开展实验。[2]实验结果发现,在不同冲突设定下,“弱至强欺骗”现象存在,即 strong model(人工智能)在 weak model(人类)的知道的知识区域表现得好,但是在weak model(人类)未知的地方表现出不对齐的行为。而且,欺骗程度随着 weak model(人类)和 strong model(人工智能)间能力的差距变大而变得更严重。造成欺骗现象随着型能力差变大而加剧的主要原因是 strong model(人工智能)变得更倾向于在 Weak-Unknown(人类未知) 的地方犯错。