从ChatGPT到AGI：生成式AI的媒介特质与伴生风险（六）

发布于 2026年3月10日 | 作者: 黑鸟智库

价格 0元

请登录后再加入购物车。登录

描述

二、生成式 AI 的伴生风险

5.人机能力非对称导致“自主欺骗”，会有目的欺骗人类甚至主动欺诈和选举篡改。2023 年，OpenAI 提出超级对齐（superalignment）[1]概念，即当超级智能拥有比人类更丰富的世界知识，比人类更聪明时，人类作为弱监督者如何监督、对齐和控制超级智能。人民大学高瓴人工智能学院、腾讯微信研究人员针对“AGI 是否会在人类未知的地方欺骗人类”问题开展实验。[2]实验结果发现，在不同冲突设定下，“弱至强欺骗”现象存在，即 strong model（人工智能）在 weak model（人类）的知道的知识区域表现得好，但是在weak model（人类）未知的地方表现出不对齐的行为。而且，欺骗程度随着 weak model（人类）和 strong model（人工智能）间能力的差距变大而变得更严重。造成欺骗现象随着型能力差变大而加剧的主要原因是 strong model（人工智能）变得更倾向于在 Weak-Unknown（人类未知）的地方犯错。

PDF文档

从ChatGPT到AGI：生成式AI的媒介特质与伴生风险（六）

购买后查看完整 PDF

当前仅展示安全封面预览，登录并购买后即可在线查看和下载完整 PDF 文档。

登录后购买