上周于旧金山举行的 RSA 安(ān)全(quán)大会上,不(bú)少(shǎo)主张安全至上的(de)供应商将各类(lèi)充满营销色彩的(de)“威胁情报”与(yǔ)“漏洞管理”系(xì)统一股脑地(dì)堆在用户面(miàn)前(qián)。而事实证明,目前已存在的正规、免(miǎn)费漏洞(dòng)信(xìn)息源足以提醒系统(tǒng)管理员,哪(nǎ)些错误问(wèn)题真正(zhèng)需要(yào)修复,且(qiě)该来源每周七(qī)天、每天二十四小时(shí)不间(jiān)断更新——这(zhè)就是Twitter。一组研究人员以实(shí)验方式对 Twitter 中的(de) bug 数据流价值进行了评测,同时构建(jiàn)起一(yī)款用于(yú)追踪相关(guān)信(xìn)息的(de)免费软件(jiàn),用以消除可解决的各类软件(jiàn)缺陷并评估其严重程(chéng)度。
俄亥俄(é)州立大学、安全厂商 FireEye 以及研究企业 Leidos 的(de)研究人(rén)员(yuán)们于最近发表(biǎo)了一篇论文,其中描述(shù)了(le)一(yī)种新型(xíng)系统,能够读(dú)取数(shù)百万(wàn)条推文中(zhōng)所提及的软件安全漏洞,而后利用机器学习(xí)训练算(suàn)法,对描述方式与(yǔ)具体内(nèi)容所代表(biǎo)的威(wēi)胁状态(tài)进行评估。他们发现,Twitter 信息不仅可(kě)用于预测接下来几天出(chū)现在国家漏(lòu)洞数据(jù)库中的大多数安全漏洞(即由国家标(biāo)准与技(jì)术(shù)研究所追踪的各项安全漏洞的官方(fāng)登记平(píng)台(tái)),同时也能(néng)够利用(yòng)自(zì)然语言处(chù)理技(jì)术(shù),大致预测出哪些漏洞将(jiāng)被赋予“危险(xiǎn)”或(huò)者“高危”严重等级,准(zhǔn)确率超过 80%。
俄(é)亥俄(é)州立大学(xué)教授 Alan Ritter 指出(chū),“我们认为安全漏(lòu)洞类似于 Twitter 上的一种热门主题,它们(men)都有着能够追踪的显著趋势性(xìng)。”相关研(yán)究(jiū)成(chéng)果将于今年(nián) 6 月在(zài)计算语言学协会(huì)的北美分会上正(zhèng)式发表。
举例来说,他们目(mù)前正在网上(shàng)进行的(de)原型测试显示,上周 Twitter 曾出现大量与 MacOS 系(xì)统(tǒng)中最新漏(lòu)洞(被称为(wéi)“BuggyCow”)相(xiàng)关的(de)推文,同时也提到一种(zhǒng)可能允(yǔn)许页面访问(wèn)的 SPOILER 攻击(jī)方法(利用英特尔芯片中(zhōng)存在的某(mǒu)深层漏(lòu)洞)。研究人(rén)员(yuán)们开发(fā)的 Twitter 扫描程序将二者标记为“可能高危”,截至目前,这两项漏(lòu)洞都(dōu)还没有被收录至(zhì)国家漏(lòu)洞数据(jù)库当(dāng)中(zhōng)。
当然,他们坦言目(mù)前的(de)原型设计方案并不完美。当下(xià)这款程序每(měi)天(tiān)只能更(gèng)新一(yī)次,其中包括不少重复性内容,而且通过(guò)比较我(wǒ)们发现其结果中错(cuò)过(guò)了一些(xiē)后来被国(guó)家漏洞数据(jù)库收录的条目。但 Ritter 认为,此项研究的真(zhēn)正(zhèng)进步(bù)在于,以人类(lèi)语(yǔ)言为基础对漏洞进行自动(dòng)分析,同时准确地根据其严重(chóng)程度做出排序。这意味着,其有朝(cháo)一日也许(xǔ)会成(chéng)为系统管理员在保护自身系统免受侵扰时,可资利用(yòng)的一款(kuǎn)强大信息聚合器(qì),或(huò)者至(zhì)少是商业漏洞数据源中(zhōng)的一种必要组成(chéng)部分,甚(shèn)至有(yǒu)望成为一种前所(suǒ)未有的(de)、根(gēn)据重(chóng)要性进行加权排序的(de)免费漏洞信息源。而这一切,都将成(chéng)为系统管理员群体的巨大(dà)福音。
他解(jiě)释称,“我(wǒ)们希望(wàng)构建起一款能够读取网(wǎng)络信息并提(tí)取(qǔ)新软件漏洞早期报告的计(jì)算机程序,同时分析用户对其潜在严重性的整体观看。结(jié)合实际来(lái)看(kàn),开(kāi)发(fā)人员往往面对着这样一个现实难(nán)题——面对复杂的分析结(jié)果,哪个才(cái)代表着(zhe)真正可能令人们遭受重大损失的高危漏洞?”
事(shì)实上,其背后的思(sī)维方(fāng)式并非新(xīn)鲜(xiān)事物。多年以来(lái),人(rén)们一(yī)直在考虑如(rú)何通过(guò)网络上(shàng)的文本信息(xī)总(zǒng)结出软件漏洞数据,甚至(zhì)早已具体到 Twitter 之上。然(rán)而,利(lì)用自然语言处理(lǐ)技术(shù)对推文中漏洞的严重程度进行排序,则代(dài)表(biǎo)着一大“重要转折”,同样关(guān)注(zhù)这一问题(tí)的(de)摩郡马里(lǐ)兰大学(xué)教授 Anupam Joshi 对此深表赞同(tóng)。他指出,“人(rén)们越来越关注网络之上关于安全(quán)漏洞的讨论内容。人们已经意(yì)识到,我(wǒ)们完全可以(yǐ)从(cóng) Twitter 等社交平台上(shàng)获取早(zǎo)期警告信号,此(cǐ)外也包括 Reddit 帖子、暗网以及博客评论等。”
在(zài)实验(yàn)当(dāng)中,俄亥(hài)俄州立大学、FireEye 以及(jí) Leidos 的研究人员们最初使用到(dào)与(yǔ)安(ān)全漏洞相关的 6000 条推(tuī)文评(píng)论这一(yī)子集。他们向 Amazon Mechanical Turk 的工作人员展示了相(xiàng)关结果,即(jí)以(yǐ)人为方式按严(yán)重(chóng)程度(dù)对其(qí)进(jìn)行排序,而(ér)后过滤掉那些(xiē)与大多数其(qí)他(tā)读者完全对立的异常结果(guǒ)。
接下来,研(yán)究(jiū)人员(yuán)利用(yòng)这些(xiē)经过标记的推(tuī)文作(zuò)为机器学习引擎的训(xùn)练数据,并进(jìn)一步测试其预测(cè)结(jié)果。着眼于接(jiē)下来五天(tiān)之内(nèi)可能被纳入国(guó)家漏洞数据库(kù)的各(gè)项安(ān)全漏洞,该程序(xù)得以利用此(cǐ)数据(jù)库中的原有严重性排名,来预测此时段(duàn)内的 100 项最严(yán)重漏洞,且(qiě)准(zhǔn)确率达到 78%。对(duì)于前 50 位,其对漏洞严重(chóng)程度的预(yù)测则(zé)更为准确,正确率达到 86%。更(gèng)重要的是,对(duì)于接下来(lái)五天内被国家漏洞(dòng)数据库评为严重程(chéng)度最高的 10 个安全漏洞(dòng),该程序的预测准确率高达 100%。
俄亥(hài)俄州(zhōu)立大学的 Ritter 警告称,尽管目前的测试结果非(fēi)常喜人,但(dàn)他们打(dǎ)造的这款自动化(huà)工(gōng)具不应被任何个人或(huò)组织作为唯一漏洞数据源使用——至少,人们应(yīng)该点击底层(céng)推文及其链(liàn)接信息(xī)以确认分析结果。他指出,“其仍然需要(yào)人类介入进来。”在他看来,最好是能将(jiāng)这款(kuǎn)程序纳入由人(rén)类负责规划(huá)的广泛漏洞数据源当中,并仅作(zuò)为来源之一。
但鉴于漏(lòu)洞(dòng)发现速度的加快(kuài),以及社(shè)交媒体上与(yǔ)漏洞相关的信息不断增加,Ritter 认为这(zhè)款程(chéng)序有(yǒu)望成为从噪声中找寻有价值(zhí)信号的一款重(chóng)要工具。他总结道,“如今的安全行业面临着(zhe)信息过(guò)多的问题。这(zhè)款程序的核心在于建立(lì)算法,帮助大家对全部内容进行排序,从而找出真正重要的信息。”