橘子百科-橘子都知道橘子百科-橘子都知道

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月26日,在2024中关村论坛年会——数据(jù)安全治理与发展论坛上,中国科学院信工所研(yán)究员虎嵩林接受 包括证券时报记者在内的媒体采(cǎi)访时指出,促使大(dà)模型(xíng)遵循人类价值观、服从人类意图(tú),规避各类(lèi)风险,并保障数字和物理空间的(de)应用安全,实现有用性、无害性和诚实性多目标的平衡,已经成(chéng)为亟待(dài)解决的世界难题。需要在现有的技术(shù)条件下持(chí)续探索,通过“攻(gōng)、检、防”,不断(duàn)发(fā)现漏洞、自动识别并进行持续化的安全加固(gù),形成一个循(xún)环发展的飞轮。

(中国科学院信工所研(yán)究员虎嵩林(lín) 郭博昊/摄)

当前(qián),大模(mó)型(xíng)正在(zài)成为驱动新质生产力发展的新动能、人类探索未知的新工具。“大模型不仅可以对话(huà)和生成视频、还可(kě)以(yǐ)调用工具、链接(jiē)物(wù)理设备、并通过与机器人结合实现具身智能(néng)。大模型本(běn)身也正在从(cóng)人类可利用的工具客体向认识、改造自然社会 的(de)主体转变。成为数学(xué)定理证明、科学(xué)研究的合作者,成为独立运营企业(yè)的法律(lǜ)主体(tǐ)。”虎嵩林(lín)指出。

在(zài)赋能新时代发展(zhǎn)的同时,生(shēng)成式(shì)人工智能也给全球带来了前所未有的(de)安全风险。比如(rú),数据方面,数据会带来价值偏见、隐私(sī)泄露(lù)、数据污染等问题(tí):训(xùn)练数据固有偏见(jiàn)导致模型产生偏见内容;海量训练数(shù)据扩大了数据(jù)安全和(hé)中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固隐私保(bǎo)护(hù)风险。算法方面,算法(fǎ)模型生成特性及安全漏洞(dòng)会(huì)引发“幻(huàn)觉”或虚假信息、模型遭 受攻击(jī)等风险。

虎嵩林表示,大模型(xíng)能力的通用性、潜(qián)在的主体地 位以及应用(yòng)的深度与广度,也(yě)都将进一步放大其危害程(chéng)度。包括两位图灵奖得(dé)主Hinton、Bengio和谷歌DeepMind和OpenAI的(de)CEO在内的产学(xué)两界领军人(rén)物联名发出的AI风险声明中,更将AI可能带来的“毁灭性(xìng)”的风险,上升到了与流行病以及核战争相提并论的高度。

2023年(nián)底《自然(rán)》杂志预测的2024年的重大科学事件中,GPT5的(de)发布以及联合国人工(gōng)智能高级(jí)别咨询(xún)机构将发布的AI监管相关(guān)报告位(wèi)列其中,反映了(le)全(quán)球对协调人工智能发展与安全的(de)重(zhòng)大关切(qiè)。

“毫无疑问,促使大模型遵循人类价值观、服(fú)从人类意图,规避各类风险,并保障数字和物理空间(jiān)的(de)应用安全,实现 有用性(xìng)、无害性和(hé)诚实性多(duō)目标的平衡,已(yǐ)经成为亟待(dài)解(jiě)决(jué)的世界难(nán)题。”虎嵩林表示。

“大模型的安全风险主要体现在无(wú)害性(Harmless)和诚实(shí)性(Honest)两个(gè)方(fāng)面。”虎嵩林表示,其(qí)中,有害信息对应(yīng)前者,包括价值(zhí)偏见,隐私泄露,还有黄赌毒、涉恐(kǒng)涉暴、仇恨、反讽、歧视、刻板印象等等(děng)各种(zhǒng)信息污染;不实信息对应后者,包(bāo)括虚假信息、伪造、欺诈内容(róng)等。

更(gèng)广义地讲,也包(bāo)括由输(shū)出信息所(suǒ)直接导致的各类不安全的指令调用、智能体或者(zhě)具身(shēn)智能机器人的恶意行为(wèi)等。而(ér)算法模型生成特性及安全(quán)漏洞会引发“幻觉”,则是一把(bǎ)“双刃剑”,既有可能是导致(zhì)有害、不实信息(xī)的“元凶”,也有可能是科学创新、艺术创意的能力来源。

需要看到,生成式大模型特有的预训练、微调、上(shàng)下文、提示等新的学习范式,使其安全(quán)具有了与传统AI安全不同的许多新特点,面临诸多新挑战,制约了传统安全(quán)方法、经验(yàn)、工具在大模型安全领域(yù)发挥效能(néng)。

大(dà)模型安全风险的(de)成因既可以是来自各类训练数据的缺陷或算法的局限(xiàn)性(xìng)等模型内(nèi)因,也可以是利(lì)用这些新型学(xué)习范(fàn)式(shì)的恶意使用或蓄意攻击等外因。这使得(dé)大中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固模型(xíng)在数(shù)据准备、预训练、微调 对(duì)齐、推(tuī)理以及应用阶段都会存在各种潜(qián)在(zài)的风险。尽管目前我们(men)在安(ān)全理(lǐ)论、大模型(xíng)安全评测、自动化测试、价值观对齐(qí)、幻觉(jué)缓解等方(fāng)面都开展(zhǎn)了一(yī)系列的(de)研究和应(yīng)用工作,这些领域依然充满了挑(tiāo)战。

“当下,从理论(lùn)上,或者说技术上,大模(mó)型安全还有很多亟待解决的中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固难题。”虎嵩林坦(tǎn)言,我们 对大模型“智(zhì)能(néng)涌现”的原理还所(suǒ)知甚(shèn)少,对上下(xià)文(wén)学习(xí)、提(tí)示学(xué)习(xí)、思维链等能力(lì)的内在机理 仍(réng)严重缺乏认知。一(yī)些(xiē)研究工作也证明AI的(de)安全性无法完全保障,对(duì)任意一(yī)个对齐模型总存(cún)在一定(dìng)长度的提示(shì)可以将之攻破等,这都极大地制(zhì)约(yuē)我们从原理上认(rèn)识和防御大模型的安全风险。

“我们需(xū)要在(zài)现(xiàn)有的技术条件下持续(xù)探索,这(zhè)也是我们设计‘以攻促防(fáng)、攻防相长’思路(lù),研制(zhì)Galexy(星河)大模型安(ān)全 测评平台的原因,也是(shì)举办首届生成式(shì)人工智能安全大赛的初衷。”虎嵩林表示,我们希望通(tōng)过“攻、检、防(fáng)”,不断发(fā)现漏洞、自动识别并进行持续化的安全(quán)加固,形成一(yī)个循环发展的飞轮。

校(xiào)对:祝(zhù)甜婷

未经允许不得转载:橘子百科-橘子都知道 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

评论

5+2=