米兰官方网页版-米兰MiLan(中国)

近期中央密集点名“新基建”,备受关（guān）注。人工智能作为新基建核心领域之一，展现出强大成长潜力，将成为产业（yè）数字化的重要驱（qū）动。乘着东风（fēng），多模态融（róng）合发展或为人工智（zhì）能（néng）深入拓展场景、实现万（wàn）物（wù）互联（lián）提供不竭（jié）动力（lì）。

近日，由蚂蚁金服牵头制（zhì）定的“生（shēng）物特征识别（bié）多模态融合国（guó）际标准”正式立项（xiàng），这一标（biāo）准（zhǔn）的制定，对（duì）于（yú）多模态领（lǐng）域发展（zhǎn）与（yǔ）技（jì）术（shù）规范（fàn）产生了重大影响。

为此，笔者与眼（yǎn）神科技、云从、银河水滴（dī）等多（duō）个（gè）企业方，进行了关于多模态领域发展主题的（de）对话（huà）。相较于多模态，我们（men）应该（gāi）先了解单模态。在对话中笔者了解到，对于指纹识别、人脸（liǎn）识别、虹（hóng）膜识（shí）别、指静脉识别等每一种生物识别技（jì）术，通过每一种算（suàn）法用一个传感器去解决一个（gè）问题的模式（shì），即为单模态。

后来，随着AI发展和信息化（huà）的迭（dié）代，不同信息（xī）从（cóng）不同方位、不（bú）同传感器一拥而入（rù），单一（yī）识别（bié）技（jì）术已经很难（nán）满足这（zhè）样的发展，在这种（zhǒng）情况下，多模态技（jì）术应场（chǎng）景（jǐng）而生。但多（duō）模态（tài）并不是单模态的简单叠加（jiā）或组（zǔ）合替代（dài），而是基于数据融合的（de）算法融合、并依托平台决策（cè）为支撑，是单模态生物识别（bié）技术的重大突（tū）破（pò），也是（shì）识别技（jì）术的未来发展方（fāng）向。

目前，多（duō）模态技术主要应（yīng）用于线上娱乐、身（shēn）份认（rèn）证、医疗健康、智慧金融、安防、教育、军工（gōng）、园区等领域。

应用驱动下（xià），多模态（tài）成AI行业发展新（xīn）风向

多模态从2018年开始成（chéng）为技术行业的焦点。那时，很（hěn）多国内（nèi）大企业，如华（huá）为（wéi）、腾讯（xùn）、百度、阿里等公司，都开始逐渐把目光瞄（miáo）向多模态；很多创业公司，如眼神科技、云从（cóng）、依（yī）图、银河水滴等也在思考（kǎo）这个方向性的发（fā）展问题。

腾讯AI Lab的（de）博士（shì）俞栋曾说“多模态是（shì）迈向通（tōng）用（yòng）人工智（zhì）能的重要方向（xiàng）”，通用人工智能是（shì）弱人工智能（néng）时代需要走的一个方向，弱人工（gōng）智能（néng）是“见多识广”，解决的是感知问题。

在眼神科技创始（shǐ）人兼CEO周军看来：“通用人（rén）工智能具有几个（gè）属性：自学习、增量学习、增强学习，这些（xiē）内容（róng）结合（hé）在一块，是强人工智（zhì）能。从弱人工智能到强人（rén）工智能的奇点，截（jié）止目前（qián）还没有突（tū）破。”“见少知（zhī）多”、“不见而预（yù）知”的强人工（gōng）智能时代，这是国（guó）际前（qián）沿人工智能（néng）公司一直努（nǔ）力多年的事情，但是技术遇到（dào）了（le）天花板。

据了解，眼神科技从早期（qī）就已经完成了指纹识别、人脸识（shí）别、虹膜识别技术（shù）的研发，形成基础算（suàn）法，其在面向市场推（tuī）广中发现，单一技（jì）术决策存在局限，并在应用驱动下推出多（duō）模态融合生物识别（bié）技术。“多模态融（róng）合生（shēng）物识别（bié）可以提升识别精准度，也能在（zài）一（yī）定程度提升生物（wù）识别技术的（de）场景（jǐng）适应性和隐私安全性。”眼（yǎn）神科技表示。

简单来说，模态就是“感官”，多模（mó）态就是将多种感（gǎn）官融合的方式。云（yún）从科技解（jiě）释道：“如（rú）果（guǒ）把‘模态’通俗地理解为（wéi）感官，那么智能音箱就是一台只具（jù）备听觉模（mó）态的物联（lián）网设备（bèi），而（ér）加载AI分析能力的摄像头可（kě）以视（shì）为视觉模态（tài）的物联网设备，把听觉、视觉甚至更（gèng）多模（mó）态（tài）组合（hé）到一起（qǐ），可诞生多（duō）模态（tài）物联网”。

与眼神科技、云（yún）从科（kē）技领域略有不同的（de）步态（tài）识别企业银河水（shuǐ）滴表（biǎo）示，“多模态技术在我国早已得（dé）到广泛应（yīng）用，如在（zài）公共安（ān）防领域（yù）。另外，指纹和人（rén）脸识别（bié）等（děng）技（jì）术的配（pèi）合使用也比较成（chéng）熟，目前正（zhèng）在向更深入（rù）更广泛的程度（dù）迈进（jìn），在这（zhè）个过程中，步态识别（bié）技术越来越受（shòu）到重视”。

据悉，步（bù）态识别（bié）是（shì）一种新兴的生物特（tè）征识别技术，相较于其他识别方式，步（bù）态识别的识别（bié）距离更远（yuǎn）。例如，普通高清摄像机下（xià）识别距离最远可达50米，属于非受控识（shí）别，无需识别对象主动（dòng）配合。步（bù）态识别是由体（tǐ）型、头型、肌肉力量、运动神经（jīng）灵敏度、走（zǒu）路姿（zī）态等共（gòng）同决定（dìng），局部（bù）变化并不会（huì）影响识别结（jié）果（guǒ）。

因（yīn）此（cǐ），步态识别技（jì）术（shù）可以有效（xiào）弥补（bǔ）其他识别技术的不足，比如识别（bié）距离（lí）普遍较短、需要主动配合（hé）或（huò）接触等问题。结合了步态识别的多（duō）模态技术将有更广泛的应用前景。

同（tóng）时，银河（hé）水滴也称：“每一种（zhǒng）信息的来（lái）源都可以称为一（yī）种模态。就AI而（ér）言，步态、人脸、虹膜、指纹、语音等生物特征模态是（shì）机器（qì）识别（bié）的依据，多模态识别即是（shì）一种结合以上多种识别技术的（de）解决方案（àn）。任何一种识别（bié）方式（shì）都有一定（dìng）的不足，多种（zhǒng）模式（shì）结（jié）合（hé）可以达到更好的效果（guǒ）”。

新基建（jiàn）下，多模态融合的（de）AI行业进入快车道

国家新（xīn）基建政策的（de）颁（bān）布（bù），让AI行业拥有了更大的发展空间，加之这（zhè）次生物（wù）特征识别（bié）多模态融合标准的立（lì）项，更是让（ràng）AI有了（le）更多（duō）的想象空间（jiān）。

新基建实际（jì）上（shàng）是新时代下（xià），可促进物质、能（néng）量、数据（jù）更高效产生和流动，使其朝（cháo）着能够产生更大价值的地方汇聚（jù），这次新冠疫情（qíng）已经切身感（gǎn）受到基于AI技术下（xià），新基建（jiàn）所带来的社会效（xiào）应。

云（yún）从科技称，新基建下AI得到很好应用，而多模（mó）态融合是AI技术发展必然结果，因为单点技（jì）术存在瓶颈，无法（fǎ）很好发挥AI的作用，容易导致（zhì）部分功能和体验感缺失。

而（ér）在多模态或AI技术闭环的支持（chí）下（xià），AI可以在消费（fèi）端与生（shēng）产（chǎn）端更好服务社会。“AI是（shì）‘头雁’，解决的是（shì）问题本身，怎样让能力提（tí）高（gāo），怎（zěn）么（me）去解决问题。让AI引领技术发展是（shì）整个行业，也（yě）是云从当前思考的（de）主要问题。”云从科技补（bǔ）充道（dào）。

在消费者端，最能体现更（gèng）好、更自然交（jiāo）互的是一位24小时的个人助理，它（tā）能（néng）知（zhī）道用（yòng）户什么时（shí）候（hòu）想要什么，用户永远能（néng）得到自己期望的服务。

在生产者端，人机协同将能扩展（zhǎn）人类专家（jiā）的（de）能（néng）力，比（bǐ）如现（xiàn）在（zài）医生一（yī）天只（zhī）能诊断10个人，未来也许在AI的（de）帮（bāng）助下，通过语音、AI诊断（duàn）、视觉辅助（zhù）、大数据等技（jì）术可以一天诊断1000个人。

云（yún）从科技总结了目前AI设备技术闭（bì）环的三种形式：1、感知，包括语音识别、语义理解、多轮对话、NLP、语音精准识别等领（lǐng）等（děng）；2、认知，包括自然（rán）物（wù）体识别、人（rén）脸识别（bié）、肢（zhī）体动作识别等（děng）；3、决策，包括AI对热量、红外捕捉信（xìn）号、空（kōng）间信（xìn）号的阅读与（yǔ）理解（jiě）。

眼神科技（jì）则向笔者表（biǎo）示：“新基建的重要领域（yù）之一就是AI，乘着“新基建”的东（dōng）风，AI行业发展将加速进入（rù）快车道。从这次新冠疫情中（zhōng）可以看到（dào），AI在公共安（ān）防、疫情防控、远程办公及服务中发挥了重要作用”。

此外，中国基础设施的“智（zhì）能（néng）化”建设迫在眉（méi）睫，智慧城市、智慧安防（fáng）、智能医疗（liáo）、智（zhì）慧社区、智慧教育等基础设施智（zhì）能化建设进入全面爆发期（qī），将为AI拓展（zhǎn）更（gèng）多（duō）创新（xīn）应（yīng）用（yòng）场景和市场空间（jiān）。在眼神科（kē）技看来，“在AI应用（yòng）场景不断深耕，以及5G、大数据、云（yún）计算等新兴技术的融合（hé）推动（dòng）下，多模态融合生物（wù）识（shí）别是（shì）AI未（wèi）来发展的必（bì）经之路（lù）”。

不过，目前（qián）AI还处于一个初（chū）级（jí）阶段，更为关注（zhù）的（de）是更简单层次的交（jiāo）互（hù）。比如语音、人脸识别，这些只是感知阶段。而且在信息化时代下，很多场（chǎng）景每天（tiān）都会产生海量的视频和图像数（shù）据，但（dàn）这些信息并（bìng）没有得到（dào）很好利用，大量值得（dé）挖（wā）掘的（de）潜在价值，被使用的也（yě）仅是冰山一角。

对此，眼神科技称（chēng），“在实战应用场（chǎng）景会（huì）有很多不可控的因（yīn）素，比如（rú）遮挡、光照等，这些会影响生物特征识别技术的应用，行业需要针对现有实际问（wèn）题（tí），对各（gè）种识别技术（shù）进行不断的研发和（hé）优化算法”。

云从科技（jì）也表示，“现在AI仅（jǐn）处于初步发展阶段，解决的（de）是简单层次（cì）的交互，更深层（céng）次（cì）的（de）多模态融合交互，目前做（zuò）得还（hái）远远不够，有待（dài）继续加强”。