AI技术要实现应(yīng)用,首先(xiān)数据要达到一定的体(tǐ)量,此外算力(lì)也要能支持大规模的模型(xíng)训练,而后(hòu)算法方面需要达(dá)到一定的精(jīng)度,端(duān)侧算力也要具备一定的推理(lǐ)能力。之所(suǒ)以目前只(zhī)有(yǒu)消费互联网(wǎng)公司在大规模(mó)应用AI算法技术,主要是在这(zhè)三方面消费(fèi)互联网(wǎng)公司都更具优势。——朱鹏(péng)飞(fēi) 天津大(dà)学智能与(yǔ)计算学部副教(jiāo)授
近日,知(zhī)名(míng)人工智能学者吴恩达发(fā)表文章,阐述了(le)他对(duì)于人工智能(néng)在传统行业中应用(yòng)缓(huǎn)慢的理解。无(wú)论是(shì)刷短(duǎn)视频时(shí)的(de)个性化推荐,还是外卖(mài)配(pèi)送时的耗(hào)时预(yù)估,或者(zhě)是移动支付时的人脸(liǎn)识别,以算法为(wéi)代表的(de)AI技术在消费互(hù)联网行业被(bèi)应用得(dé)“得(dé)心应手”。然而提到传统行(háng)业,人(rén)们(men)却很难快速想(xiǎng)起非(fēi)常成(chéng)熟的应用人工智能的典型案例。为何AI技术(shù)在传统行业的应用速度和范围(wéi)远不如消费互联网等行业?
消费(fèi)互联网行(háng)业应用AI更具优势
“AI技术(shù)的应用主要取决于数据(jù)、算力和(hé)算法(fǎ)。”天津(jīn)大学智(zhì)能(néng)与计算学部副(fù)教授朱鹏飞(fēi)介绍,首先数据要达到一(yī)定(dìng)的体量,这(zhè)是应(yīng)用的基(jī)础,此外算力也(yě)要(yào)能支持大(dà)规模的(de)模型训练,而后算法方面需要达到一定的精度,端侧算力也要具备一定的推理能力。
之所以目前只有消费互联网公司在大规模应(yīng)用(yòng)AI技术,主要是在这三方(fāng)面(miàn)消费互联(lián)网公司都更具优势。
前些年短视频并没有现在这么火爆,例如发(fā)展(zhǎn)初期的淘宝,也并没(méi)有很强的用户黏性。而随着推送越来越精(jīng)准(zhǔn),用户(hù)的体验感(gǎn)也得到了极大的提(tí)升,最终呈现井喷式的(de)用户增长。
“精准推(tuī)送主要依赖(lài)于算法(fǎ)精度的提升,而(ér)算法精度的提升又离不开海量的数据作为基(jī)础(chǔ)。”朱鹏飞解释,在这个单(dān)一的场(chǎng)景中(zhōng),算(suàn)法模型(xíng)需要(yào)不断进化,终(zhōng)身学习。由(yóu)于不是(shì)封闭数据环境,总有新的数据加入,算法模(mó)型需要(yào)不断通过学习进行调(diào)整、迭代升级(jí),使(shǐ)其精(jīng)度越来越高(gāo),形成一个良(liáng)性循环。
“与此同时,虽然目前消(xiāo)费互联网(wǎng)行(háng)业在算法精度上已(yǐ)经上升到一定的高度,但(dàn)相比一些传统行业的应用场景,消费互联网行业对(duì)于AI算法精度接受的阈(yù)值都比较低(dī)。比如短视频、淘(táo)宝偏好推(tuī)荐(jiàn)、百度热搜关键词,只需要达到用户产(chǎn)生黏(nián)性的目(mù)的,只要(yào)有一定准确性,用户(hù)都可以接受。”朱(zhū)鹏飞(fēi)表示,相比之下,在很多传(chuán)统行业,对于技术精度的要求就高得多。比如基于(yú)视觉的AI技术在人脸识(shí)别(bié)方面的应用,在高铁站、飞(fēi)机(jī)场核实身份(fèn),1∶1的比对准(zhǔn)确度(dù)要高达99.99%甚至更高才可以进(jìn)行应用。
在算力方面,目前云端算力已经可以(yǐ)支持大(dà)规(guī)模模型训练和推理,比如短(duǎn)视频、淘宝推荐等。但在大量(liàng)传统行业应(yīng)用场景中,智能终端上的端(duān)侧(cè)算(suàn)力还(hái)无法满足推理的实(shí)时性和准确(què)性要求。
“相比于社(shè)交(jiāo)网(wǎng)络和电(diàn)商系统,传统行业应用场景的封闭生态系统使得(dé)云(yún)端算力无法得到有效(xiào)应用。”朱鹏飞举例说,以智能无(wú)人系(xì)统巡检(jiǎn)为(wéi)例,电力(lì)巡检、管道巡检(jiǎn)、交通巡检、河道巡(xún)检以及(jí)光伏巡(xún)检等(děng)要(yào)求搭载在无人(rén)机和机(jī)器人上的算力满足实时(shí)巡检要求,由于视(shì)频分(fèn)析的模型复杂度较高(gāo),端侧往往无法实现精准高效的实时(shí)推理(lǐ),轻量(liàng)级网络在满足实时性(xìng)的(de)同时损失了识别精度。由于算(suàn)法(fǎ)精度(dù)达(dá)不到使用要(yào)求(qiú),使得(dé)在很多场景中无法实现(xiàn)AI技术(shù)的应用。
传(chuán)统行业应用AI面临三(sān)大挑战
吴恩达(dá)认为,在AI应用方面,消费(fèi)互联网行业之外的其他行业都面临着三大挑战:数据集很小(xiǎo);定(dìng)制化成本很高;从验证想法到部署生产(chǎn)的(de)过程(chéng)很长(zhǎng)。
对此,朱(zhū)鹏飞(fēi)也深有感(gǎn)触,他以传统(tǒng)制造业为例(lì)进(jìn)行了分析。
“传统制造企业(yè)在制造向智造转型的过程中,数据是一个很突(tū)出的问题。”朱(zhū)鹏飞介(jiè)绍,首先在数据的获取方面存在一定(dìng)难(nán)度。传统(tǒng)制造企业的(de)数据是封闭的,因为很多传统(tǒng)企业并(bìng)不是(shì)新型信息(xī)化(huà)设备,没有传感器收集(jí)实时数(shù)据,也没有(yǒu)数据中心,因此数据零散,缺失严重,很(hěn)难获取像消费互联网企业(yè)里那种海量、高质量的数据(jù)。
其次(cì),行业内(nèi)部各个工厂的(de)数据很多具(jù)有商业价(jià)值,因此工厂都严格(gé)保密,这导致数据不流(liú)通,没有办法进(jìn)行共享,进而形成了数据孤岛效应,影响了AI算法模(mó)型的优化。
“我们在开(kāi)发(fā)一个AI算法模型的时候(hòu),因为数据的保密性,往往得到的数据都是(shì)经过(guò)‘脱敏’的,这也严重地影响了我们的判断。而传统行业的企业中,又缺乏具(jù)有AI算法(fǎ)模型(xíng)开(kāi)发能力的技(jì)术(shù)人员(yuán),因此双方在合作研(yán)发(fā)过程中也(yě)存在着很高的壁(bì)垒。”朱(zhū)鹏飞说。
此外(wài),传统(tǒng)行业中的(de)数据(jù)来源并不像消(xiāo)费互联网领(lǐng)域那样来自单一场景,复杂的业务场(chǎng)景(jǐng)导致数据往往很“脏”,必须进行“清洗”,去掉大量无效信(xìn)息(xī),AI算法模型才(cái)能高(gāo)效(xiào)率的学习以提高(gāo)精度。“这就像我们教小朋友知(zhī)识,只讲知识点,小朋(péng)友们才能学得快,如果在知识(shí)点(diǎn)中夹杂着大量无用的信息,小朋友无从分辨(biàn),学习效(xiào)率肯(kěn)定降(jiàng)低。”朱鹏飞介绍,而(ér)给数据标注“知识点”的工作是巨大而(ér)繁琐的,需要企业有专人(rén)去(qù)做(zuò),要花费很多时间精力(lì)。
“传统制造(zào)业要想(xiǎng)获(huò)得高质量的(de)数据,就必须(xū)对生产设备进行信息化、智能化的改造。”朱鹏飞表示,这(zhè)种(zhǒng)改造需要企业投入大量的(de)时间和精力,还会增(zēng)加(jiā)生产成本,这也成为AI在传统制造业中应(yīng)用的壁(bì)垒。
高质量(liàng)数据是应用前提
过去这10年,大(dà)部分(fèn)AI的研发和(hé)应用是“以软(ruǎn)件为中心”驱动(dòng)的。在海量数据的支撑下,不断优化软件(jiàn)和算法,来获得(dé)更高的算(suàn)法精度。在传统行业无法提(tí)高(gāo)数(shù)据质量和数量的情况下,吴恩(ēn)达认为,传统行业应该采用“以数据(jù)为中(zhōng)心”的模式,把重点放(fàng)在获(huò)得质量更好(hǎo)、匹配度更高的数据上。
“在这(zhè)种思路下(xià),传统行业也涌现(xiàn)了(le)一(yī)些不错的应用案例。比如医学领域的影(yǐng)像识别AI系统,可(kě)以(yǐ)帮医生‘看’CT影像片子,对肿瘤等(děng)病(bìng)变加以识别,辅助医生(shēng)做出判断。”朱鹏飞介绍,由于很(hěn)多数(shù)据都由(yóu)专业的放射(shè)科医生在影像片子上进行了标注,因此数据比较(jiào)准确,AI算(suàn)法模(mó)型(xíng)在学习的过程中进步很快。目前很多影像识别系统的准确率都能达到90%以上,由于是辅助医生,最后还需医(yī)生做医疗决策,但这个水平的准确率在很大程度上降低了医生的工作强度。
“尽(jìn)管(guǎn)传(chuán)统行业(yè)有了一些应(yīng)用AI技术的成功案例,但是要想更好地和AI结合,还得在(zài)提高数据(jù)质(zhì)量(liàng)方面下功(gōng)夫。”朱鹏飞建议,首先对(duì)于已经积累了海量数(shù)据的传统(tǒng)行(háng)业(yè),在保证数据安全(quán)的前提下,主(zhǔ)动开放(fàng)数据。挖掘数(shù)据(jù)中蕴藏的价值,和(hé)需(xū)求关联起来(lái),会有很大的发展空间。其次,对于新兴(xìng)行业,比如新能源汽车等,在构建智能工厂规划的时候,就把获取数据、智能化的因素(sù)考虑进去。
不过(guò)朱鹏飞强调(diào),在(zài)传统行业用好AI技术的同时,也(yě)不(bú)要滥用AI技术,在应(yīng)用前(qián)做好评估,如果不能提高生产(chǎn)效率,对(duì)行业整体有所提升,那么盲目强行使用AI技术,就是对(duì)资源的浪费。“比如一(yī)些应用场景需要AI算(suàn)法达到(dào)99%以上的(de)精(jīng)度才可以使用,通过评(píng)估,现有模型算法只能达到90%的精度,那么(me)这个场景就(jiù)没必要强行上马(mǎ)AI技术了。”
“总而言之,对于AI技术的应用要数据先(xiān)行,有高质量的数据再谈(tán)应用,没(méi)有(yǒu)好的数(shù)据很难有好的应用。”朱鹏飞说。