描述
随着⼤语⾔模型在推理任务中的⼴泛应⽤,AI安全问题变得⽇益复杂。传统的安全防御⽅法往往在模型输出层⾯进⾏过滤和检 测,但⾯对复杂的推理过程,这些⽅法显得⼒不从⼼。攻击者可以通过精⼼设计的提示,诱导模型在推理过程中逐步偏离安全 轨道。
随着⼤语⾔模型在推理任务中的⼴泛应⽤,AI安全问题变得⽇益复杂。传统的安全防御⽅法往往在模型输出层⾯进⾏过滤和检 测,但⾯对复杂的推理过程,这些⽅法显得⼒不从⼼。攻击者可以通过精⼼设计的提示,诱导模型在推理过程中逐步偏离安全 轨道。