随着⼤语⾔模型在推理任务中的⼴泛应⽤,AI安全问题变得⽇益复杂。传统的安全防御⽅法往往在模型输出层⾯进⾏过滤和检 测,但⾯对复杂的推理过程,这些⽅法显得⼒不从⼼。攻击者可以通过精⼼设计的提示,诱导模型在推理过程中逐步偏离安全 轨道。
您只能预览前2页内容,购买产品后即可查看完整PDF文档并下载。
本站文档数据仅供学习交流,如侵犯您的权益,请联系我们进行删除。