橘子百科-橘子都知道橘子百科-橘子都知道

中国科学院信息工程研 究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研 究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月 26日,在2024中关(guān)村论坛 年会——数据安全(quán)治理与(yǔ)发展论坛上,中国科学院信工所研究员(yuán)虎嵩林接受包括证券时报记(jì)者在(zài)内(nèi)的媒体采访时指出,促使大模型(xíng)遵循人类价值观(guān)、服从人类意图,规避(bì)各类(lèi)风险,并保障数字(zì)和物(wù)理空间的应用安全,实现有用性、无(wú)害性(xìng)和诚实性多目标的平衡,已经成为亟待解决的世界难题。需要在现有的技术条件(jiàn)下持续探 索,通过“攻、检、防”,不断发(fā)现漏洞、自(zì)动识别并进行持(chí)续化的安全加固,形成一(yī)个循环发展 的飞(fēi)轮。

(中国科学院信工所研究员虎嵩林 郭(guō)博昊/摄)

当前,大模型正在成为驱动新质生产力(lì)发(fā)展的新(xīn)动能、人类(lèi)探索未知的新工具。“大模型不仅可以对话和生(shēng)成视频、还(hái)可以调用工具、链(liàn)接物理(lǐ)设 备、并通过与机器人结合(hé)实现具身智能。大模型本身也 正在从人类可利用的(de)工具客(kè)体(tǐ)向认识、改造自然社会的主(zhǔ)体转变。成为(wèi)数(shù)学(xué)定理(中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固lǐ)证明、科学研究的合(hé)作者,成(chéng)为(wèi)独立运营企业的法律主体(tǐ)。”虎嵩林指出。

在赋能新时代发展的同时,生成式人工智能也给全球带(dài)来了(le)前所(suǒ)未有的安全风险(xiǎn)。比如,数据方面,数据会带来价(jià)值偏见、隐私泄(xiè)露、数据污染等问题:训练(liàn)数(shù)据固有偏见(jiàn)导致模(mó)型(xíng)产生(shēng)偏见内容;海量训练数据 扩大了数据安全和隐私保护风险。算法方面,算法模型生成(chéng)特性及安全漏洞会引发“幻觉”或(huò)虚假信息(xī)、模型遭受(shòu)攻击等风(fēng)险。

虎嵩林(lín)表示,大模型能力的通用性、潜在的(de)主(zhǔ)体地位以及应用的深度与广(guǎng)度,也都将进一(yī)步放大其危害程度。包括(kuò)两位图灵奖得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在 内的产学两界(jiè)领军人物联名发出的AI风险声(shēng)明中,更将AI可能带来的“毁灭性”的风险,上升到(dào)了(le)与流(liú)行病以及核战争相提并论的高度。

2023年底《自然》杂志预测的2024年的重(zhòng)大科学事件中,GPT5的发布以及联合国人工智能(néng)高级别咨询(xún)机构将发(fā)布的AI监(jiān)管(guǎn)相关(guān)报告位列其中,反映了全球对协调(diào)人工智能发展与安全的(de)重大关切。

“毫无疑问,促(cù)使大模型遵循人类价值观、服从人类意图,规避各类风险,并保障数字和物理(lǐ)空间的应用安全,实现有(yǒu)用性、无害性和诚实性 多目标的(de)平(píng)衡,已经成为亟待解决的世界难题。”虎嵩林(lín)表示。

“大模型的安全风险主要体现在无害性(Harmless)和诚(chéng)实性(Honest)两个方面。”虎嵩林表示,其中,有害信息对应前(qián中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固)者,包括价值偏见(jiàn),隐 私泄露,还有黄赌毒、涉恐涉暴、仇恨、反讽、歧视、刻(kè)板(bǎn)印(yìn)象(xiàng)等等各种信息(xī)污(wū)染;不实(shí)信息对应后者,包括虚假信息 、伪造、欺诈内(nèi)容(róng)等(děng)。

更广义地讲,也包括由输出信息所(suǒ)直接导致的 各类不安全的指令调用、智能体或(huò)者具身智能机器人的恶意行为等。而算法模型生成特性及安全漏洞会引发“幻觉”,则是一把“双刃剑”,既有可能是导(dǎo)致有害、不实信息的“元凶”,也有(yǒu)可能是科学创新、艺术创(chuàng)意的能力来源。

需要看到,生(shēng)成(chéng)式(shì)大模型特有(yǒu)的预训练、微(wēi)调、上下文、提示等新的学习范式(shì),使其安全具有了与传统AI安全不同的许(xǔ)多新特点,面临诸多新挑战,制 约了传统安全方法、经验、工具在大模(mó)型安全领域发挥效能。

大(dà)模型 安全风险的(de)成因既(jì)可以是来自各类训练数据的缺陷或算法的局限性等(děng)模型(xíng)内因,也(yě)可以是利(lì)用这些新型学 习范式的恶意(yì)使用或蓄意(yì)攻击等(děng)外因(yīn)。这使得 大(dà)模型在数(shù)据准备、预(yù)训练(liàn)、微调对齐、推理以及应用阶段都会 存在各种潜在的风险。尽管目(mù)前我们在 安全理论、大模型安全评测、自动(dòng)化测(cè)试、价值观对齐、幻觉缓解等方面都开展了一(yī)系列(liè)的研究和应用工作,这些领(lǐng)域依然充满了挑(tiāo)战(zhàn)。中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固>

“当下,从理(lǐ)论上,或者说技(jì)术上,大模型安(ān)全还有很多亟待解决(jué)的难题。”虎嵩林坦言,我们对大模型“智能涌现”的 原理(lǐ)还(hái)所知甚少,对上下文学习(xí)、提(tí)示学(xué)习、思维链等能力(lì)的内在机理仍严重缺乏认(rèn)知。一些研究工作也证明AI的安全性无法完全保障(zhàng),对(duì)任(rèn)意一个对齐模型总存在(zài)一定长度的提示可以将之攻破等,这都极(jí)大地制约我们(men)从原理上认识和防御大模型(xíng)的安全(quán)风(fēng)险。

“我们需要在现有的技(jì)术条件(jiàn)下持续探索,这也(yě)是(shì)我们设计‘以(yǐ)攻促防、攻防相长’思路,研(yán)制Galexy(星河)大模型安全测评平台的原因,也是举办首届生成式人 工智能安全大赛的初衷。”虎嵩林表示,我(wǒ)们希望通过“攻、检、防”,不(bù)断发现漏洞、自动识别并进行持续(xù)化的安全加固,形成一个循(xún)环发展的(de)飞轮。

校对:祝甜婷

未经允许不得转载:橘子百科-橘子都知道 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

评论

5+2=