橘子百科-橘子都知道橘子百科-橘子都知道

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月26日,在2024中(zhōng)关村论坛年会——数据安全治理与发(fā)展论坛上,中国科学院信(xìn)工所研 究员虎嵩(sōng)林接受包括证券时报记者在内的媒体采访时指出,促(cù)使大(dà)模(mó)型(xíng)遵(zūn)循人类价值观(guān)、服从人(rén)类(lèi)意图(tú),规避各类风险,并保障数字和物理空间的应(yīng)用安全,实现有用 性 、无 害性和诚实性多目标的(de)平衡,已经成为亟待解决的(de)世界难题。需要在现(xiàn)有的技术条件(jiàn)下持续中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固探索,通(tōng)过“攻、检、防”,不断发现漏(lòu)洞、自动识别并进行持续化(huà)的安全加固,形(xíng)成一个循环发(fā)展的飞轮。

(中国科学(xué)院 信工所研究(jiū)员虎嵩林 郭博昊/摄)

当前,大模型正在成为驱动(dòng)新质生产力发展的新动能、人类探索未知的新工具(jù)。“大模型不仅 可以对话(huà)和生成视频、还(hái)可以调用工具(jù)、链接物(wù)理设备、并通过(guò)与(yǔ)机器人结合实现具(jù)身智(zhì)能。大模(mó)型(xíng)本身也(yě)正在从人类可利(lì)用(yòng)的工具客体向认识、改造(zào)自然社会的主体转变。成(chéng)为数(shù)学定(dìng)理(lǐ)证明、科学研究的合作者,成为独立运营企业的法律主体。”虎嵩(sōng)林指出。

在赋能新时代发(fā)展的(de)同时(shí),生成(chéng)式人工智(zhì)能也给全球带来了前所未(wèi)有的安全风险。比如,数据方面,数据会带来价值偏见、隐私泄露、数(shù)据污染等问题:训练数据固有偏见(jiàn)导致模型产生偏见内容(róng);海量训练(liàn)数据扩大了数据安全和隐私保护风(fēng)险。算法方面,算法模型生成(chéng)特性及(jí)安全漏洞会(huì)引发“幻觉”或虚假信息、模型遭受攻击等风险(xiǎn)。

虎嵩林表示,大模型能(néng)力的通(tōng)用性、潜(qián)在的主(zhǔ)体地位以及应用的深(shēn)度与广度,也都(dōu)将进一步放大其危害程度。包括两位图灵奖得主Hinton、Bengio和谷歌DeepMind和(hé)OpenAI的CEO在内的产学两界领军人物 联名(míng)发出的AI风险声明中,更将AI可能带来的 “毁(huǐ)灭性”的风(fēng)险,上升到(dào)了与流行病以及核战争(zhēng)相提并论的高度。

2023年底《自然(rán)》杂志预测的2024年的(de)重大科(kē)学事件中(zhōng),GPT5的发布以及联合国人工智能高级别咨询机构将发(fā)布的AI监管相关报告位(wèi)列其中(zhōng),反映了全球(qiú)对协调人工(gōng)智能发展与安全的重大关(guān)切。

“毫无(wú)疑问,促使 大模型遵循人类(lèi)价(jià)值观、服从人类意图,规避各类风险(xiǎn),并(bìng)保障数字和物理空间的应(yīng)用安全(quán),实现有用 性、无害性(xìng)和诚实性多目标的(de)平衡,已经(jīng)成为(wèi)亟(jí)待(dài)解决的世界难(nán)题。”虎嵩(sōng)林表示。

“大模型的安全风险主要体现在无害性(Harmless)和诚实性(Honest)两个方面。”虎(hǔ)嵩(sōng)林表示,其中,有害(hài)信 息对应前者(zhě),包括价值偏(piān)见,隐私泄露,还有黄赌毒、涉恐(kǒng)涉暴、仇恨、反讽、歧(qí)视、刻板(bǎn)印象等等(děng)各种信息污染;不实信息(xī)对应后者,包括虚假信息、伪造、欺诈内容等。

更广义地讲,也包括由输出信息所直接导致的各类不(bù)安全(quán)的指令调用、智(zhì)能(néng)体或者具身智能机器(qì)人的(de)恶意行为等。而算法模型(xíng)生成特性及安全漏洞会引发“幻觉”,则是一把“双刃(rèn)剑”,既有(yǒu)可能是导致有害(hài)、不实信息的“元(yuán)凶”,也有(yǒu)可能是科学创(chuàng)新、艺术创意的能(néng)力(lì)来源。

需要看(kàn)到,生成(chéng)式大模型特有(yǒu)的预训练、微调、上下文、提示 等新的学习范式,使其安全具有了与 传统AI安(ān)全不同的许(xǔ)多新(xīn)特(tè)点,面临诸多新挑战,制约了(le)传统安全方法、经验(yàn)、工具在大模型安全领域发挥 效能。

大模型(xíng)安全(quán)风险的成因既可以(yǐ)是来自 各类训练数据的(de)缺陷或算(suàn)法(fǎ)的(de)局限性等模型内因,也可以是利用这些(xiē)新型(xíng)学(xué)习范式的恶意(yì)使用或(huò)蓄意(yì)攻(gōng)击(jī)等(děng)外因。这 使得大(dà)模型 在数据准(zhǔn)备、预训(xùn)练、微调对齐、推理以及应用(yòng)阶(jiē)段都会存在各种潜在的风险。尽(jǐn)管目前 我们在安(ān)全理论、大 模型安全评测、自动化测试、价值观对齐、幻觉缓解等方面都开展了一(yī)系(xì)列的研究和应用(yòng)工作,这(zhè)些领(lǐng)域依然充满了挑战。

“当下,从理论上,或者(zhě)说技术上,大模型安全还有很多亟待解(jiě)决的难题。”虎嵩林坦言,我们对大模型“智能涌现”的原理还(hái)所知甚少,对上下文学习、提示学习、思维链等能力的(de)中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固内在机(jī)理仍严重缺乏(fá)认知。一些研究工作也证明AI的安全(quán)性无法完全保(bǎo)障,对任意一个对齐模型总存(cún)在一定长度的提(tí)示可以将之攻破等,这都极大地制约我们从原理上认识和防御(yù)大模型的安全风险。

“我们需要在现有的技术条件下持续探索,这也是我们(men)设(shè)计(jì)‘以攻促防、攻防相长’思(sī)路(lù),研制Galexy(星河)大模型安全测评平台(tái)的原因,也是举办首届生成(chéng)式人工智能安全大(dà)赛的初衷。”虎嵩林表示,我们希(xī)望通过(guò)“攻、检、防(fáng)”,不(bù)断发现漏洞、自动识别并进行持续化的安全加固,形成一个循环发展的飞(fēi)轮。

校(xiào)对:祝甜婷

未经允许不得转载:橘子百科-橘子都知道 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

评论

5+2=