橘子百科-橘子都知道橘子百科-橘子都知道

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大 模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大 模型安全加固

4月(yuè)26日,在2024中关村论坛年会——数据安全治理与发(fā)展论坛上,中国科学(xué)院(yuàn)信工所(suǒ)研究员虎嵩林(lín)接(jiē)受包(bāo)括证券时报(bào)记者在内的媒(méi)体采访时指出(chū),促使大模型遵循人类价值观、服从(cóng)人类意图(tú),规避各(gè)类风险,并保障数字和(hé)物(wù)理空间的应用安全(quán),实现有 用性 、无害性和(hé)诚(chéng)实性多目标的平衡(héng),已经成为(wèi)亟(jí)待解决(jué)的世界难题。需要在现(xiàn)有(yǒu)的技术条件下(xià)持续探索 ,通过“攻、检、防”,不断发现漏洞、自动识别并(bìng)进行持续(xù)化的安全(quán)加固,形成一个循环发展的飞轮。

(中国科学院信(xìn)工所研究员虎嵩林 郭(guō)博(bó)昊/摄)

当(dāng)前,大模(mó)型(xíng)正在成为驱动(dòng)新质生产(chǎn)力发展的新动(dòng)能、人类探索未知的(de)新工具。“大模型不仅可(kě)以对话和生成视频、还可以调用工具 、链接物理设备、并通过与机器人结合实现具身智能。大模型本身也正在从人(rén)类可利用的(de)工(gōng)具客体向认识、改造自然社会的主体转变(biàn)。成为数学定理证明、科学(xué)研(yán)究的(de)合作者,成为独立运营企业的法律主体。”虎嵩林指出。

在赋能新时代发展的同时,生成式人(rén)工智能也给全球带来了前所未有的安全风险。比如,数据方面,数(shù)据会(huì)带来价值(zhí)偏(piān)见、隐(yǐn)私泄露、数据污染等问题:训练数据(jù)固有偏见导(dǎo)致模(mó)型产生偏见(jiàn)内容;海量训(xùn)练数据扩大了数据(jù)安全和隐私保护风险。算法方面,算法模型生成特性及(jí)安全漏洞会引发“幻觉”或虚假信息、模(mó)型遭受攻击等风险。

虎嵩林(lín)表示,大模型能力(lì)的通用性、潜在 的主(zhǔ)体地位以及应用的(de)深度与广度,也都将进(jìn)一步放大其危害程度。包括两位(wèi)图灵奖得主(zhǔ)Hinton、Bengio和谷歌DeepMind和(hé)OpenAI的CEO在内的产学两(liǎng)界领军人物联名发出的AI风险声明 中,更将AI可能带来的“毁灭性”的(de)风险(xiǎn),上升到了与流行病以及核战争相提并论的高度。

2023年底《自然》杂志预测的2024年的 重大科学事件中,GPT5的发布以及联合国人(rén)工智能高级别咨询机构将发(fā)布的(de)AI监(jiān)管相关报告位(wèi)列其中,反映了(le)全球对协调人工智能发展(zhǎn)与安全的(de)重(zhòng)大(dà)关切。

“毫无疑问,促使大模型遵循人(rén)类价值(zhí)观、服从人类意图,规避各类风险,并保障(zhàng)数字和物理空(kōng)间的应用安全,实现有用性、无害性和诚实性多(duō)目标的平衡,已经成为亟待解决的世界难题。”虎嵩林(lín)表示。

“大模型的安全风险主要体现在无(wú)害性(Harmless)和诚实性(Honest)两个方面。”虎嵩林表示(shì),其中,有害(hài)信息(xī)对应前者,包括价值偏见,隐私泄露,还有黄赌毒、涉恐涉(shè)暴(bào)、仇恨、反讽、歧视、刻板印象等等各种信息污染;不实信息对应后者,包括虚假信息、伪造、欺(qī)诈(zhà)内容等。

更广义地讲,也包括由输出信息所直接导致的各类不安全的指令(lìng)调用、智能体或者具身智(zhì)能机器人的恶意行为(wèi)等。而算法模型生成特性及(jí)安全漏(lòu)洞会引发“幻觉”,则是一把(bǎ)“双刃剑”,既有可能是导致有害、不实信息的(de)“元凶”,也 有可能是(shì)科学创新 、艺术创意的能力来源。

需要看到,生成式大模型(xíng)特有的预(yù)训(xùn)练、微调、上下文、提示等新(xīn)的学习范式,使其安全具有了与传统AI安全不(bù)同的许(xǔ)多新特点,面临诸多新挑战,制约了传统安全方法、经验 、工具在大模型安全领域发挥效能。

大模型安全风险的成因(yīn)既可(kě)以是(shì)来自各类训练数据的缺陷(xiàn)或算法(fǎ)的局限性(xìng)等模型(xíng)内因,也可(kě)以是利用这些新型学(xué)习范式的(de)恶意使用(yòng)或蓄意攻击(jī)等外因。这使得大模型在数(shù)据 准备(bèi)、预(中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固yù)训练、微调对齐、推理以及应用(yòng)阶 段(duàn)都会存(cún)在各种潜在的风险。尽(jǐn)管目前我(wǒ)们在安全理论、大模型安(ān)全评测、自动化测(cè)试、价值(zhí)观对齐、幻觉(jué)缓解(jiě)等方面(miàn)都开展了一系列的研究(jiū)和(hé)应用工作,这些领域依然充满了挑战。

“当下,从理论上,或者说(shuō)技(jì)术上,大模型(xíng)安全还有很(hěn)多(duō)亟待解决的(de)难题。”虎嵩林坦(tǎn)言,我(wǒ)们(men)对大模型“智能(néng)涌现”的原理还所知甚少,对上下 文学习、提示学习、思维链等能 力的(de)内在机理仍严重缺乏认知(zhī)。一些(xiē)研究工(gōng)作(zuò)也 证明AI的安全性无法完全保障,对(duì)任意(yì)一个对齐模型总存在一定长度的提示可(kě)以将中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固(jiāng)之攻破等,这都极大地制约我们从(cóng)原(yuán)理上认识(shí)和防御大模型的安全风险。

“我们需要(yào)在现有的技术条件下持(chí)续探索,这也是我们设计‘以攻促(cù)防、攻(gōng)防相长’思路,研制Galexy(星河(hé))大模型安全测评平台的原因,也是举办首届生(shēng)成式人工智能安全大赛的初衷。”虎嵩林(lín)表(biǎo)示,我们希望通过“攻、检(jiǎn)、防”,不断发现漏洞、自动识别并(bìng)进行持续化的安全加固,形成一个循环发展的飞轮。

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

校对:祝(zhù)甜婷

未经允许不得转载:橘子百科-橘子都知道 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

评论

5+2=