OpenAI清静零星负责人长文梳理:大模子的坚持侵略与侵略
选自Lil’Log
作者:Lilian Weng
机械之心编译
编纂 :Panda
LLM 能耐强盛,清静侵略侵略借运分心不良之人用其来干坏事,零星理可能会组成难以预料的负责严正服从。尽管大少数商用以及开源 LLM 都存在确定的人长内置清静机制,但却并不用定能侵略方式各异的文梳坚持侵略。克日,坚持OpenAI 清静零星(Safety Systems)团队负责人 Lilian Weng 宣告了一篇博客文章《Adversarial Attacks on LLMs》 ,清静侵略侵略梳理了针对于 LLM 的零星理坚持侵略规范并重大介绍了一些侵略措施