近期中央密集点名“新基建”,备受关(guān)注。人工智能作为新基建核心领域之一,展现出强大成长潜力,将成为产业(yè)数字化的重要驱(qū)动。乘着东风(fēng),多模态融(róng)合发展或为人工智(zhì)能(néng)深入拓展场景、实现万(wàn)物(wù)互联(lián)提供不竭(jié)动力(lì)。
近日,由蚂蚁金服牵头制(zhì)定的“生(shēng)物特征识别(bié)多模态融合国(guó)际标准”正式立项(xiàng),这一标(biāo)准(zhǔn)的制定,对(duì)于(yú)多模态领(lǐng)域发展(zhǎn)与(yǔ)技(jì)术(shù)规范(fàn)产生了重大影响。
为此,笔者与眼(yǎn)神科技、云从、银河水滴(dī)等多(duō)个(gè)企业方,进行了关于多模态领域发展主题的(de)对话(huà)。相较于多模态,我们(men)应该(gāi)先了解单模态。在对话中笔者了解到,对于指纹识别、人脸(liǎn)识别、虹(hóng)膜识(shí)别、指静脉识别等每一种生物识别技(jì)术,通过每一种算(suàn)法用一个传感器去解决一个(gè)问题的模式(shì),即为单模态。
后来,随着AI发展和信息化(huà)的迭(dié)代,不同信息(xī)从(cóng)不同方位、不(bú)同传感器一拥而入(rù),单一(yī)识别(bié)技(jì)术已经很难(nán)满足这(zhè)样的发展,在这种(zhǒng)情况下,多模态技(jì)术应场(chǎng)景(jǐng)而生。但多(duō)模态(tài)并不是单模态的简单叠加(jiā)或组(zǔ)合替代(dài),而是基于数据融合的(de)算法融合、并依托平台决策(cè)为支撑,是单模态生物识别(bié)技术的重大突(tū)破(pò),也是(shì)识别技(jì)术的未来发展方(fāng)向。
目前,多(duō)模态技术主要应(yīng)用于线上娱乐、身(shēn)份认(rèn)证、医疗健康、智慧金融、安防、教育、军工(gōng)、园区等领域。
应用驱动下(xià),多模态(tài)成AI行业发展新(xīn)风向
多模态从2018年开始成(chéng)为技术行业的焦点。那时,很(hěn)多国内(nèi)大企业,如华(huá)为(wéi)、腾讯(xùn)、百度、阿里等公司,都开始逐渐把目光瞄(miáo)向多模态;很多创业公司,如眼神科技、云从(cóng)、依(yī)图、银河水滴等也在思考(kǎo)这个方向性的发(fā)展问题。
腾讯AI Lab的(de)博士(shì)俞栋曾说“多模态是(shì)迈向通(tōng)用(yòng)人工智(zhì)能的重要方向(xiàng)”,通用人工智能是(shì)弱人工智能(néng)时代需要走的一个方向,弱人工(gōng)智能(néng)是“见多识广”,解决的是感知问题。
在眼神科技创始(shǐ)人兼CEO周军看来:“通用人(rén)工智能具有几个(gè)属性:自学习、增量学习、增强学习,这些(xiē)内容(róng)结合(hé)在一块,是强人工智(zhì)能。从弱人工智能到强人(rén)工智能的奇点,截(jié)止目前(qián)还没有突(tū)破。”“见少知(zhī)多”、“不见而预(yù)知”的强人工(gōng)智能时代,这是国(guó)际前(qián)沿人工智能(néng)公司一直努(nǔ)力多年的事情,但是技术遇到(dào)了(le)天花板。
据了解,眼神科技从早期(qī)就已经完成了指纹识别、人脸识(shí)别、虹膜识别技术(shù)的研发,形成基础算(suàn)法,其在面向市场推(tuī)广中发现,单一技(jì)术决策存在局限,并在应用驱动下推出多(duō)模态融合生物识别(bié)技术。“多模态融(róng)合生(shēng)物识别(bié)可以提升识别精准度,也能在(zài)一(yī)定程度提升生物(wù)识别技术的(de)场景(jǐng)适应性和隐私安全性。”眼(yǎn)神科技表示。
简单来说,模态就是“感官”,多模(mó)态就是将多种感(gǎn)官融合的方式。云(yún)从科技解(jiě)释道:“如(rú)果(guǒ)把‘模态’通俗地理解为(wéi)感官,那么智能音箱就是一台只具(jù)备听觉模(mó)态的物联(lián)网设备(bèi),而(ér)加载AI分析能力的摄像头可(kě)以视(shì)为视觉模态(tài)的物联网设备,把听觉、视觉甚至更(gèng)多模(mó)态(tài)组合(hé)到一起(qǐ),可诞生多(duō)模态(tài)物联网”。
与眼神科技、云(yún)从科(kē)技领域略有不同的(de)步态(tài)识别企业银河水(shuǐ)滴表(biǎo)示,“多模态技术在我国早已得(dé)到广泛应(yīng)用,如在(zài)公共安(ān)防领域(yù)。另外,指纹和人(rén)脸识别(bié)等(děng)技(jì)术的配(pèi)合使用也比较成(chéng)熟,目前正(zhèng)在向更深入(rù)更广泛的程度(dù)迈进(jìn),在这(zhè)个过程中,步态识别(bié)技术越来越受(shòu)到重视”。
据悉,步(bù)态识别(bié)是(shì)一种新兴的生物特(tè)征识别技术,相较于其他识别方式,步(bù)态识别的识别(bié)距离更远(yuǎn)。例如,普通高清摄像机下(xià)识别距离最远可达50米,属于非受控识(shí)别,无需识别对象主动(dòng)配合。步(bù)态识别是由体(tǐ)型、头型、肌肉力量、运动神经(jīng)灵敏度、走(zǒu)路姿(zī)态等共(gòng)同决定(dìng),局部(bù)变化并不会(huì)影响识别结(jié)果(guǒ)。
因(yīn)此(cǐ),步态识别技(jì)术(shù)可以有效(xiào)弥补(bǔ)其他识别技术的不足,比如识别(bié)距离(lí)普遍较短、需要主动配合(hé)或(huò)接触等问题。结合了步态识别的多(duō)模态技术将有更广泛的应用前景。
同(tóng)时,银河(hé)水滴也称:“每一种(zhǒng)信息的来(lái)源都可以称为一(yī)种模态。就AI而(ér)言,步态、人脸、虹膜、指纹、语音等生物特征模态是(shì)机器(qì)识别(bié)的依据,多模态识别即是(shì)一种结合以上多种识别技术的(de)解决方案(àn)。任何一种识别(bié)方式(shì)都有一定(dìng)的不足,多种(zhǒng)模式(shì)结(jié)合(hé)可以达到更好的效果(guǒ)”。
新基建(jiàn)下,多模态融合的(de)AI行业进入快车道
国家新(xīn)基建政策的(de)颁(bān)布(bù),让AI行业拥有了更大的发展空间,加之这(zhè)次生物(wù)特征识别(bié)多模态融合标准的立(lì)项,更是让(ràng)AI有了(le)更多(duō)的想象空间(jiān)。
新基建实际(jì)上(shàng)是新时代下(xià),可促进物质、能(néng)量、数据(jù)更高效产生和流动,使其朝(cháo)着能够产生更大价值的地方汇聚(jù),这次新冠疫情(qíng)已经切身感(gǎn)受到基于AI技术下(xià),新基建(jiàn)所带来的社会效(xiào)应。
云(yún)从科技称,新基建下AI得到很好应用,而多模(mó)态融合是AI技术发展必然结果,因为单点技(jì)术存在瓶颈,无法(fǎ)很好发挥AI的作用,容易导致(zhì)部分功能和体验感缺失。
而(ér)在多模态或AI技术闭环的支持(chí)下(xià),AI可以在消费(fèi)端与生(shēng)产(chǎn)端更好服务社会。“AI是(shì)‘头雁’,解决的是(shì)问题本身,怎样让能力提(tí)高(gāo),怎(zěn)么(me)去解决问题。让AI引领技术发展是(shì)整个行业,也(yě)是云从当前思考的(de)主要问题。”云从科技补(bǔ)充道(dào)。
在消费者端,最能体现更(gèng)好、更自然交(jiāo)互的是一位24小时的个人助理,它(tā)能(néng)知(zhī)道用(yòng)户什么时(shí)候(hòu)想要什么,用户永远能(néng)得到自己期望的服务。
在生产者端,人机协同将能扩展(zhǎn)人类专家(jiā)的(de)能(néng)力,比(bǐ)如现(xiàn)在(zài)医生一(yī)天只(zhī)能诊断10个人,未来也许在AI的(de)帮(bāng)助下,通过语音、AI诊断(duàn)、视觉辅助(zhù)、大数据等技(jì)术可以一天诊断1000个人。
云(yún)从科技总结了目前AI设备技术闭(bì)环的三种形式:1、感知,包括语音识别、语义理解、多轮对话、NLP、语音精准识别等领(lǐng)等(děng);2、认知,包括自然(rán)物(wù)体识别、人(rén)脸识别(bié)、肢(zhī)体动作识别等(děng);3、决策,包括AI对热量、红外捕捉信(xìn)号、空(kōng)间信(xìn)号的阅读与(yǔ)理解(jiě)。
眼神科技(jì)则向笔者表(biǎo)示:“新基建的重要领域(yù)之一就是AI,乘着“新基建”的东(dōng)风,AI行业发展将加速进入(rù)快车道。从这次新冠疫情中(zhōng)可以看到(dào),AI在公共安(ān)防、疫情防控、远程办公及服务中发挥了重要作用”。
此外,中国基础设施的“智(zhì)能(néng)化”建设迫在眉(méi)睫,智慧城市、智慧安防(fáng)、智能医疗(liáo)、智(zhì)慧社区、智慧教育等基础设施智(zhì)能化建设进入全面爆发期(qī),将为AI拓展(zhǎn)更(gèng)多(duō)创新(xīn)应(yīng)用(yòng)场景和市场空间(jiān)。在眼神科(kē)技看来,“在AI应用(yòng)场景不断深耕,以及5G、大数据、云(yún)计算等新兴技术的融合(hé)推动(dòng)下,多模态融合生物(wù)识(shí)别是(shì)AI未(wèi)来发展的必(bì)经之路(lù)”。
不过,目前(qián)AI还处于一个初(chū)级(jí)阶段,更为关注(zhù)的(de)是更简单层次的交(jiāo)互(hù)。比如语音、人脸识别,这些只是感知阶段。而且在信息化时代下,很多场(chǎng)景每天(tiān)都会产生海量的视频和图像数(shù)据,但(dàn)这些信息并(bìng)没有得到(dào)很好利用,大量值得(dé)挖(wā)掘的(de)潜在价值,被使用的也(yě)仅是冰山一角。
对此,眼神科技称(chēng),“在实战应用场(chǎng)景会(huì)有很多不可控的因(yīn)素,比如(rú)遮挡、光照等,这些会影响生物特征识别技术的应用,行业需要针对现有实际问(wèn)题(tí),对各(gè)种识别技术(shù)进行不断的研发和(hé)优化算法”。
云从科技(jì)也表示,“现在AI仅(jǐn)处于初步发展阶段,解决的(de)是简单层次(cì)的交互,更深层(céng)次(cì)的(de)多模态融合交互,目前做(zuò)得还(hái)远远不够,有待(dài)继续加强”。