王欣:通用大模型最后只会变成少量的一两家
专题 :2024中国AIGC创新发展论坛
2024年服贸(mào)会专(zhuān)题论坛(tán)之一——“2024中国AIGC创新发展论坛(tán)”于9月13日-14日在北京举行。安恒信息中央研究院院长王欣(xīn)出席并演讲。
王欣(xīn)认为,国内有很多厂(chǎng)商在做通用大模型(xíng),但通用大模型最后只会剩下成少量(liàng)的(de)一两家,“我们看到各个垂直领域反而 在做各类(lèi)的垂(chuí)直模型,我(wǒ)认为这路是对的”,他认为,最终是围绕通用大(dà)模型或者相(xiāng)对小参数的模型(xíng)围绕业(yè)务下沉的模型。
以下为演(yǎn)讲(jiǎng)实录:
王欣:大家(jiā)下午好,刚才两位专家都介绍了围绕AI大模(mó)型运营这块的很多时间,我今天围绕 这个(gè)话题(tí)继续延伸。
过(guò)去两年多时间AI很火(huǒ),AI破(pò)圈(quān),我(wǒ)不是做人工智(zhì)能,我是做攻(gōng)防出身的,但现(xiàn)在我也加入(rù)到人工智能序列里,因为各(gè)行各(gè)业在看到AI这块技术的革新之后,我们看到了原来做不(bù)好的技(jì)术围绕(rào)着现在整个大模型出现可以达到非(fēi)常好的效(xiào)果。
我在比较(jiào)早期的(de)时候针对于(yú)AI已经做了很多战略层面的铺垫(diàn)。但客观地讲,从大模型这件事情上,我们距离国外(wài)还是有比较远的(de)距离。从ChatGPT出(chū)现之后,我国各大互联网公司、各(gè)大行业在训练自己的(de)大模型,去年(nián)的时候可以理解为是(shì)国(guó)内外(wài)大(dà)模型的技术元年,去(qù)年一年时间内(nèi),我看到最多的(de)是几乎 每天都有新的大模型出现,在每天技术(shù)不断更 新过程中,我们思考我们为什么要去做这件事情。所(suǒ)以这个PPT里面第(dì)一页看到所有浪潮退去之后要回归到价值本质。
对(duì)于AI来说,本质是一个(gè)工具,工具的核心是解决业务问题,无论是在安全行业还是在其他行业(yè),包括前一段时(shí)间我参加了(le)Gartner一个会,在(zài)很多企(qǐ)业里面(miàn),大家(jiā)对于AI有什么期(qī)待?核心总结起来是三(sān)个方面(miàn):第一是降低生产成本,第二是提高产品质量,第(dì)三是(shì)推动产业转型。
我们看到(dào)各个垂直领域反(fǎn)而在做各类的垂直模型,我认为这路是对的,我(wǒ)们可以看到国内有很多厂商过去在做通(tōng)用大模型,我认为通用 大模型最(zuì)后(hòu)只会变成少量的一两家,最终围绕通(tōng)用大模(mó)型或者相(xiāng)对小参数的模(mó)型围绕业务往下(xià)走的模型。
安全行(xíng)业(yè)也一样,安(ān)全(quán)行业发展(zhǎn)了二十多(duō)年,我大学毕业前就(jiù)开始王欣:通用大模型最后只会变成少量的一两家接触安全,也将近二十年左右的时间,在(zài)整个感触里面,其实安(ān)全是存在一个天平的问题,很多时候我们希望告警比较少,但又不希望有漏洞,我 们希望业务优先但又希望安全第一,我们希望用更少的成本又希望安全整体防(fáng)御做的更好。
在整个技术迭代过程中可以看到,原来出现了很多安(ān)全产品,但这些安全产品有时候不能完全去解决客户问题,在这个情况下(xià)怎么办?堆人。但人是不是(shì)一个(gè)最优(yōu)解?很多,包括后面会王欣:通用大模型最后只会变成少量的一两家讲到一些case,我们(men)铺了很多产品不够人去凑,但人的(de)成本(běn)持续上升,很难通(tōng)过人去填补最后(hòu)一公(gōng)里(lǐ)。所(suǒ)以我们就在(zài)看,围绕(rào)着安全(quán)现在这样一个痛点现状,我们大(dà)模型能否带来这里面(miàn)的变(biàn)化,我们(men)把AI作为一个工具,我们核心分析了痛点,看大模型能不能解(jiě)决。
大模型(xíng)我总结了几(jǐ)个点,第一个,就之(zhī)前人工智能技术有更强(qiáng)的理解指(zhǐ)令的能(néng)力,这(zhè)里我认(rèn)为是两层:一(yī)是本身为软件工程,对机(jī)器理解的指令更强;二(èr)是人工(gōng)智能(néng)为拟人化(huà)的学(xué)科,本身更接近于跟人的对话 。第二个,理解意(yì)志(zhì)。就是它有更强(qiáng)的泛化能力,所以我们(men)在(zài)安全很多的业务很难做到非常标准的SOP。所以我们(men)是希望(wàng)掌握一些(xiē)知识之后还有更强的泛化能力(lì)。第三个,具有更强的COT能力,因为很多安全任务不是一个(gè)简单的(de)问题,其实是一个复杂问题,所以在(zài)很多安全任(rèn)务处理过程中需要(yào)加一个(gè)复杂问题把它拆解(jiě)成更加简单的(de)问题、多(duō)个(gè)问题,大模型思维链 的问题本身比(bǐ)较适合做安全相关(guān)任务。第四个,有快速的学(xué)习成(chéng)长跟复制的能力。很多安全行业里面(miàn),人的经验复制是很难的,如(rú)何从数据驱动到(dào)知识(shí)驱动,到(dào)变成一个平台级(jí)的能力,这个层面我觉得是大模型(xíng)对这(zhè)个行业来说很大(dà)的价值。
所(suǒ)以围绕着上面所有,我(wǒ)认为人工(gōng)智能(néng)可以填补(bǔ)这里面的鸿沟,建立起一座桥(qiáo)梁之后,向左可以提高我们整个产品(pǐn)质量(liàng),向右可以提 高整个服务的能效。所以(yǐ)我们(men)不断地在思考、在(zài)探索,在具体的每个业务链上到底(dǐ)有什么样的安(ān)全问题。
在另外一个层(céng)面,刚才余总也介绍(shào)到,大模型本(běn)身偏向于是(shì)人的大脑(nǎo),偏向于类似于咨询专(zhuān)家。但我们更希望(wàng),具体的一些咨询专家能不能(néng)动手帮助完(wán)成所有任务,所以我们这上面的(de)思(sī)考是(shì)通过(guò)智能体的放,通过连接(jiē)下(xià)层原来的产品,围(wéi)绕(rào)着上述业务场景构建(jiàn)相关智能体,融入原来的安全(quán)体系。
所以这里我想抛一个观点,新的技术出现不(bù)是去解决新(xīn)的问题,而是更(gèng)多和原(yuán)来产品(pǐn)进行结合,解决原来(lái)传统解决不(bù)好(hǎo)的问题,这是王道、是(shì)正道。另外,很多时(shí)候对于大模型来说,是不是(shì)可以提(tí)高很高的效率?在这个点上,我原来跟很 多业内专家去聊,其实它提升的是机器做不好的、需(xū)要人介入的这一块的工作效率,对于现在大模(mó)型本(běn)身推理和各方面性(xìng)能原因,原来机器性能已经(jīng)这样,在机器性能上(shàng)再叠加,这在当前(qián)技术阶段不是特别成熟。
第二个层面,在整(zhěng)个AI这一块,我在很多(duō)客户聊(liáo),大模型(xíng)是不是很多原来(lái)解决不了的问题现在都可以(yǐ)通过(guò)人工智能(néng)来解(jiě)决(jué)了?其实远远不(bù)够,我(wǒ)们的梦想非(fēi)常(cháng)高,但大模型现在还在(zài)一个技术的爬坡阶段,有很多问题,无论是幻(huàn)觉问题、性能问题、指令遵循问(wèn)题等等一系列,并(bìng)不是(shì)在所有任务上都能处理得很好,但不能低(dī)估了(le)这个技(jì)术未 来发展空间。所以当前阶段(duàn)要看有(yǒu)哪些痛点(diǎn),大模型当前阶段最合适(shì)做什么工(gōng)作,主(zhǔ)编边走(zǒu)边(biān)爬坡,边跟(gēn)现在的业务结(jié)合,给(gěi)现在业务痛(tòng)点带来相关(guān)价值。
过去我们内部做了很(hěn)多头脑风暴,思考现在有什么样(yàng)的痛点,大模型能否解决什么问题,如果可以,我们就开始组织预演,组织预演可以,然后工程(chéng)化,工程化再可以给客户一个持续的优化过程。所以(yǐ)我(wǒ)们其实(shí)做了好多好多(duō)的尝(cháng)试,这里(lǐ)面有很多也是失败了,包括最早的时候我们想(xiǎng)说原始流量是否可以(yǐ)直接丢给大模型,大模(mó)型是否能(néng)够独立针对于大型的软件工程,然后进行(xíng)源代(dài)码的挖(wā)掘,包(bāo)括能不能做全自动化复杂场(chǎng)景的渗透 。刚(gāng)才我说的(de)这个场(chǎng)景分别代表了(le)大模型(xíng)现在(zài)的三个缺陷。这里不展开(kāi)详细去(qù)聊这个话题了。
实践过(guò)程(chéng)中有几个点做的还可以(yǐ),第一个是安全运营相关的(de)场景,安全运营,刚才两位专家也(yě)提到,我们越来(lái)越关注安全,整个法律体系的构(gòu)建越(yuè)来越完善,采集到的日志(zhì)越来越多,形成的告警越来越(yuè)多。第二个是我们对手整个(gè)攻击越来越智能化、自动化,包括互联网上攻击(jī)攻(gōng)防之间(jiān)的博弈(yì)越来越强(qiáng)烈(liè),所以我们其实(shí)在现在发现(xiàn)告警越来越多,我走访了很多客户,一天告(gào)警可能在(zài)几十(shí)万到几百万,但是一个(gè)工程师一天大概只能处理个一(yī)千个左右的(de)告警,所以我看了很(hěn)多(duō)客户招(zhāo)了几十个人专门做安全运营,但是(shì)几(jǐ)十个人,假(jiǎ)设我们要把所有的日志告警分析的话,远远不够。我们在思(sī)考大模 型在(zài)这个点上可以解决很好的问题,因为它本身的分(fēn)析逻辑、它的(de)技能是可以(yǐ)相对的通过一些知(zhī)识经验传递的方式给到大(dà)模(mó)型。但这(zhè)一块,就不展开讲了,因为前面两位专家主(zhǔ)要是围绕这个话 题来讲。
大家对于安(ān)全运营期 待(dài)的第二(èr)点(diǎn)是未知威(wēi)胁的发现。今(jīn)年(nián)8月份(fèn)我(wǒ)们团队去BlackHat(全球一个顶尖的黑(hēi)帽子大会),当时(shí)做了一个分享,就是利用大(dà)模型进 行威胁狩猎。这个相关技术成(chéng)果在2024年国家网(wǎng)络安(ān)全(quán)宣传周上进行了(le)公布,这个赛道我们也是(shì)拿到了第一名。因为大模型有比较强的泛(fàn)化的能力,对于原来很多规则都是从(cóng)已知到已知问(wèn)题的发现(xiàn),但是大(dà)模型可以在一定程(chéng)度上做的一个已知到未知的发现(xiàn),通过这样的方式极大提升了我(wǒ)们整个狩(shòu)猎能力包括过去很多(duō)APT的线索,通(tōng)过(guò)这样的(de)方式得到了有效的产出。
这些相关成果我(wǒ)就不展(zhǎn)开讲(jiǎng)了,因(yīn)为文字比较多,全部阐述(shù)清楚需要比(bǐ)较长的时间。
前面讲的东西都偏向安全运营,后面讲数(shù)据安全相关的东西。业界做数据安全国内已经推了很(hěn)多(duō)年,但(dàn)整体落地存在挑战,这里本身有数据安全跟业务更加连接,跟业务更加相关,不同客户整个数(shù)据安全需求(qiú)也不一样。另外一个层面,过去(qù)很多传统技术无法很好(hǎo)的支持数据安全的(de)落地,比如分类和分级,过(guò)去客户侧结构(gòu)化数据有不同的业务类型和不同程序(xù)员开发,数据库(kù)涉及方式不一样,表字段命名不(bù)一样,很难(nán)通过原(yuán)来通过规则或者(zhě)关 键字的方(fāng)式形成一套识别(bié)的工具,我们过去(qù)看过很多数据分类分级的产品,识别率是比较低的只(zhǐ)有对于他认识的,之前做过关键词这类的识别的比较高,相对业务更新一点或者整个数据库设计、命名有(yǒu)一些特(tè)殊性或者(zhě)有其他差(chà)异就识别不(bù)出来。
围绕这个,就(jiù)是我画的图,前面产品,后(hòu)面堆人,通过这样的方(fāng)式堆了很多人,数据分类分级,我们(men)知道很多客户(hù)非结构化(huà)数据,然后一(yī)个数据库(kù)可能就几千张几(jǐ)万张表甚至十几万表,或者一个客户(hù)现场,一(yī)天一个人,分析的大概也是差不多一千(qiān)个。
我们有一个运(yùn)营(yíng)商的客户跟我们(men)说了(le)一个事情,说我这边有1500万个 字段,能不能做相关(guān)的数据分类分(fēn)级。用传(chuán)统的方式,不(bù)知道(dào)大家有没有概念,但做了计算(suàn),如果(guǒ)按照传统(tǒng)的方式,大(dà)概需要把(bǎ)两到三个(gè)人从实习阶段直接干到退(tuì)休。我(wǒ)们(men)去推动这(zhè)个点,我觉(jué)得是打开数据安全的基础,我(wǒ)们也做了很多实践,其实本身是对于自然语(yǔ)言的理(lǐ)解,结构化数据里面本身(shēn)字段(duàn)表之间有关系,所以(yǐ)我们通过AI的方式让(ràng)它自动化的去推测每一(yī)个字段里的含义,并且归到(dào)相应的内容(róng)。这里(lǐ)面我们识别到的准确率,其实比人工专家还要高,因为专家有时(shí)候(hòu)是带情(qíng)绪的,有时候不是理(lǐ)性的,认为这一秒应该分到这(zhè)里,下一秒(miǎo)做类似工作认为应该在另外(wài)一边,整个思维更加(jiā)跳跃。
在具体案例里面我们做了很多的客户实(shí)践(jiàn)发现,整(zhěng)体效率提升30倍左右,虽然这(zhè)里面百万个字段除1000个字段,10万(wàn)字(zì)段除(chú)以1000个字段,效率提升不仅30倍,但因为整个项目交付有其他环(huán)节,所以我们整(zhěng)体算下来大概有30倍(bèi)效率(lǜ)的提升。这后面是具体(tǐ)的项目,我不(bù)展开讲了。
刚刚讲(jiǎng)的是结构化数据,数据安全里面非结构化数据,过去这(zhè)一块也是老大难的问(wèn)题,因为我们肯定(dìng)知道有很多终端的DLP包(bāo)括网络的DLP去针对于文本(běn)的内容进行(xíng)识别,过去DLP的初代、二代(dài)更多是通过一些(xiē)文件(jiàn)的格式、编码、关键词(cí),后(hòu)面又增加了一些NLP的技术,其实整体(tǐ)的识(shí)别(bié)率是很低的,误报(bào)率(lǜ)很高的(de)。
今天(tiān)是安全场,在(zài)座很多人可(kě)能是知道这一块的现状,所以我就不展(zhǎn)开讲了。大模 型本身有很强的文本理解能力、有很强的(de)总结(jié)归纳的能力。所以我们对(duì)于(yú)不同的业(yè)务数(shù)据进去之后,这边分析完一个文(wén)档之 后(hòu),认为是(shì)一个员工工资表,所以认为是一个4级(jí)文档。后面分析完认为是一个技(jì)术设计文档,所以属于4级高(gāo)敏感等等。通过这种方(fāng)式(shì),原来(lái)是把(bǎ)人的思(sī)维抽象(xiàng)成了一个规则,而现在(zài)是用(yòng)借助人的思考方式、阅读方式、总结归纳的能(néng)力(lì)让它去识别相关的(de)信息。所(suǒ)以我认为在过去原来传统技术叠加是(shì)一代二(èr)代三代,大模型在这个点(diǎn)上的价(jià)值是跨代的。如果有兴趣(qù)后面再详细(xì)交流。
关于API安全也是 一(yī)样,在整(zhěng)个API安全这一块(kuài)也是围绕(rào)数据安全这几年(nián)比较火的一个点,过去API安全里面存(cún)在一些问题,比如API接口识别的准确率,包括API脆弱性的一些识别(bié)以及研判能力(lì),包括API接口调用的敏(mǐn)感数据以及敏感数据所对应的行为事件所分(fēn)析出来的一些异常行为之类等等安全相关(guān)的(de)维度,但过(guò)去(qù)在这里(lǐ)面处理的都(dōu)不是(shì)特别好,然后我们(men)通(tōng)过让大模型去做API的提纯,包括做异常行(xíng)为的(de)分析。这是一个真实(shí)的例子(PPT图),央企的例子,通过这样的方式识别(bié)到真(zhēn)正某一个IP在(zài)夜(yè)间拖取相关数据大概达到(dào)多少条,API的安全其实有很(hěn)多的产品功王欣:通用大模型最后只会变成少量的一两家能,但(dàn)是我认为(wèi)对(duì)于客(kè)户来说,这是最最(zuì)关心的,就因为API安全建好之后,到底有谁通过我这(zhè)个(gè)API接 口偷数据和爬数据(jù)。
最后一页我快速(sù)讲一下,整个数据大模型这一块(kuài)针对于(yú)安(ān)全,包括大模型本身(shēn)技术当前现状,我们认为还(hái)是在爬坡阶段。过去我们(men)提到的是偏向于一个智能问答到现在的一个辅(fǔ)助驾驶,可(kě)以做(zuò)大部分(fēn)工作,最后人工做一些(xiē)check。我(wǒ)相信在不远的将来,在一些关键的任务上可以实现无人驾驶的效(xiào)果,因(yīn)为目前我们在一些(xiē)新(xīn)的领域(yù)上已(yǐ)经(jīng)看到了,已经实(shí)践出来了,后面找机会再跟各位再做进一步的汇报,我的汇 报就是这些,谢谢大家(jiā)。
新浪声明:所有会议实录(lù)均为(wèi)现场速记(jì)整理,未经演(yǎn)讲者审阅,新(xīn)浪(làng)网登载此文出于传递更(gèng)多信息之目的,并不意味着赞同(tóng)其(qí)观点或证实其描述。
责任编辑:梁斌 SF055
未经允许不得转载:橘子百科-橘子都知道 王欣:通用大模型最后只会变成少量的一两家
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了