最具(jù)“情商”的新一代智能机器人来了!能(néng)读懂上(shàng)下文
也许你也有(yǒu)过这样的经历,向智能(néng)客服(fú)咨询问题(tí),却陷入(rù)毫无进展的(de)对话里:
-你们家(jiā)的面(miàn)膜都(dōu)是纯天然的(de)?
-亲亲,我(wǒ)们家的面膜(mó)都是芦荟精华提取(qǔ),纯天然的哦~
-我皮(pí)肤有点干,推荐一(yī)款呗(bei)~
-冬天皮肤干(gàn)燥推荐给(gěi)亲亲我们(men)的保湿精(jīng)华乳~
-我是要(yào)买面(miàn)膜,你是机器人(rén)吧,让人来(lái)说话。
作为顾客(kè),此(cǐ)时你大概要叹(tàn)一句(jù)“人(rén)工(gōng)智能真不智能”。这些(xiē)所谓“智能(néng)”客(kè)服们往往只(zhī)能做到(dào)一问一(yī)答(dá),一旦对话涉及稍微(wēi)复杂的情境,它们就开始答非所(suǒ)问。
让人工智能(néng)学会根(gēn)据上下(xià)文去处理信息,是自然语言(yán)处理技术一个(gè)关键的(de)门(mén)槛,也(yě)是多(duō)年来整个(gè)学术界和工业界都在努力攻(gōng)克(kè)的难(nán)题。尽管在(zài)通用NLP领域,gpt-2,BERT等算法模型的出现(xiàn),让(ràng)语义理解取得了重大进展(zhǎn),但是由于(yú)专业性强、垂直语料库(kù)不(bú)足等原因,某(mǒu)些(xiē)亟待落地(dì)的应用(yòng)场景,例如高强度的客服对话(huà),还深陷在开头出现的(de)“人工智障”泥潭中。
最(zuì)近(jìn),这个难题迎来了新进展。晓多科技(下称“晓多”)开发(fā)的基于上下文的语义识别(bié)项目(mù),以深度学习的方式,让智能问答机器人能够像人(rén)类一样,结合语(yǔ)境去理解复杂场(chǎng)景下的对话,并(bìng)且进行持续(xù)的自我学(xué)习(xí),无需人工设置(zhì)规则(zé),也能不断扩(kuò)展和(hé)覆盖更多的场景(jǐng)。
从一问一答(dá)到读懂语境
为什(shí)么人工智能会有这些“不智能”的表现(xiàn)?这是因为(wéi)目前市面上主流的智能问答机器人,大部分都是根据单(dān)个句子(zǐ)来识别顾客的意图,从而(ér)进行一问一答的任务型对话。但在日常聊天对话中,我们习惯口(kǒu)语化表达,尤其在打字时,一般不会(huì)大段大段地发送(sòng),而会使用很多断句,这(zhè)种零碎的表达使(shǐ)得机器人(rén)无法从单个句子(zǐ)中准确识(shí)别(bié)出(chū)你的真实(shí)意图(tú),造成答非所问(wèn)的情况。
这对于服(fú)务业来说是一个致命伤。
和普通的闲聊机器(qì)人不同,智能客服必须做到对各种场景的精准(zhǔn)识别。因为智能客服面对(duì)的工作,是(shì)要及时地、明(míng)确地解(jiě)决顾客(kè)的问(wèn)题。
当你(nǐ)和闲聊机器人逗趣的时候(hòu),它答(dá)非所问的(de)话并不(bú)会让你烦躁,反而觉得很有(yǒu)趣味;但当你只想赶紧退(tuì)货或者得到赔偿时,智能客服的胡(hú)言乱语足(zú)够让烦躁的顾客给这家店铺打上0星,并在评论区(qū)洋洋洒洒好(hǎo)几百字,控诉店(diàn)铺(pù)服务不到位。
在商品售前阶段也是这样,智能(néng)客服错(cuò)误的(de)回复或答非所问,都会影响顾客的体验度,平台(tái)商家竞(jìng)争(zhēng)激烈的(de)情况(kuàng)下,得不到满(mǎn)意答复的顾客可能会很快放弃,选择另外(wài)一家店铺,从而造成顾客的大量流失。
单句识别与上下文识别的差别
解决这一问(wèn)题的关键,在于要让机器人像人一样,学会(huì)联系上下文,结合语境来对话,而不(bú)仅仅(jǐn)对单个句子作出反(fǎn)应。
目前市面上其他机器人都不(bú)支持上下文语义,他们是在(zài)靠规(guī)则(zé)和流程(chéng)设(shè)置关键(jiàn)词(cí)。也就是说(shuō),这个情景中(zhōng)需要什么信息,就要设计出对应的问题,让(ràng)机器人按照固定(dìng)的顺序提问,顾客按照(zhào)要求回答完所有问题,机器人(rén)才能根据所有信息来进行回(huí)应。
例如,顾客要购(gòu)买飞机票,就要设(shè)定机器人首先询问顾客起点、终点、时间,再问顾客想要什么等级的座(zuò)位(wèi)等等,通过这些固定问题的答案,把需要(yào)的信息(xī)补充完整,最终给(gěi)出推荐(jiàn)。
在这种情况下,每一个场景都需要人(rén)工去设定对应(yīng)的规则,效率十分低下。尤其在(zài)电商领域,从售前到售中(zhōng),再到售后,涉及(jí)到的(de)问题是方(fāng)方面面的,更(gèng)别说(shuō)还有购物品类的区别,场景的扩展是指数级的,靠(kào)人工设定(dìng)规则去(qù)做到(dào)全覆(fù)盖,说是天方夜谭也不为过。
如果能够将目前人工智能领域大热的深度学习应用到(dào)这一(yī)问题的解决上(shàng),让(ràng)机(jī)器人能够通过自己(jǐ)学(xué)习,掌握基于(yú)上下文的语义(yì)理解,并(bìng)持续学习扩展到各个场景中,就可以(yǐ)大大地提(tí)高智能(néng)机器人面对复杂场景(jǐng)的(de)精准应对能力,同时提高它覆盖各种场景(jǐng)的(de)效率。怀着这样的想法,晓多开始(shǐ)了上下文语义项(xiàng)目。
让机器人自(zì)己“划重点(diǎn)”:记住重要信息,忘记不重要的
机器人自己(jǐ)学会(huì)理解(jiě)上下文,困难(nán)在哪里?晓多算法工(gōng)程师(shī)、本次上(shàng)下文语义项目的负责(zé)人张翀向大数据文(wén)摘介绍,最关键的问题在于要让机器人(rén)像人(rén)一样记得上文(wén)的重要信息(xī),并(bìng)且(qiě)知道(dào)这些信息和当前问(wèn)句的关联。
在这个(gè)问(wèn)题(tí)上,目前学术界和业界并没有现成的(de)解决方(fāng)案。对此(cǐ),张翀介绍,晓多(duō)为新一代(dài)问答(dá)机(jī)器人创(chuàng)新设计了一个深度(dù)学(xué)习(xí)模型,包含四(sì)个(gè)模块(kuài):记忆与遗忘、提炼(liàn)、融合、输出。
记(jì)忆(yì)与遗忘模块赋(fù)予机器人记住上(shàng)文关键信息的能力。没有(yǒu)记忆能(néng)力的机器人,只会对最近的一句话作(zuò)出反应,而晓多的模型可以帮助机器(qì)人把(bǎ)前后的诉(sù)求关联起来,及时作出准确的推荐(jiàn)。
点(diǎn)击图(tú)片查看详细内容
在技(jì)术(shù)上,晓多(duō)做(zuò)出了一个此前业界(jiè)还没有实现过的创(chuàng)新应用,参照(zhào)一个名叫(jiào)长短期记忆网(wǎng)络(luò)(LSTM)的结构,设计实现会话级别的记忆和遗忘。
晓多的又一创新,是应用于提(tí)炼模块(kuài)的注意力机制。它会自动对上文的每一(yī)条信息进行计算,算出这些信息与当(dāng)前句子对应的重要程度,重要程度(dù)高(gāo)的,就会被保留下来。
假如顾客得到了满(mǎn)意的产品推荐之(zhī)后,又提出(chū)“什(shí)么时候发货”的问题,注意力机(jī)制通过计算,就会(huì)发现上文的重要程(chéng)度并不高,这样,无用的信息就会被过滤(lǜ),与当前(qián)对(duì)话有关联的(de)上文信息被选取出来(lái),进(jìn)入下一个模块中。
在融(róng)合模(mó)块中,机器人会对提(tí)炼出(chū)的(de)上文关键信息(xī)和当前聊天消(xiāo)息结(jié)合,来识别顾客的(de)意图。晓多采用(yòng)的方(fāng)式是在向(xiàng)量空间做(zuò)梳理,简单来说,可以理解为提取上(shàng)文(wén)关(guān)键(jiàn)信息是在机器人(rén)大脑内部的一个操作,这之后,再在一个抽(chōu)象(xiàng)的(de)空间里,把(bǎ)提取出来(lái)的关键(jiàn)信息与当前的单句进行综合,最终输出一个结合上文信(xìn)息和当前单(dān)句所(suǒ)做出的判断。
这(zhè)个模型在(zài)实(shí)验中得到的数据令(lìng)人惊喜(xǐ)。晓多从真(zhēn)实电商聊天?志中抽取了若?涉及上下?的问答样本,构造两份意图识别测试集,分(fèn)别对应两个电商领(lǐng)域,对?发现结合(hé)上下?预测的模型效(xiào)果远超只根据单句预测的模型:
recall(召回(huí)率(lǜ))=机器(qì)人正确识别的问题数/问题总数;
Precision(精确率(lǜ))=机器(qì)人正(zhèng)确识别的问题数/机器人(rén)已识别的问(wèn)题数;f1core=2*precision*recall/(precision + recall) ,表示(shì)综合考虑召回(huí)率和精确(què)率的评分;
这些(xiē)工作并不是想(xiǎng)到(dào)就(jiù)可以做到的,对机器人(rén)的训练需要大量的数据,迁移学习能力是晓多能够实现这(zhè)些创(chuàng)新(xīn)的关键。
“人工智能的深度学习,突出的(de)特点就是对数据(jù)的依赖非常(cháng)大,”张翀说(shuō),“因为深度(dù)学习模型的参数(shù)非常多,你可以理解(jiě)为它是一个更复杂的智能体,数据是它(tā)学习的依(yī)据,它要学习(xí)的东西越(yuè)多,需要的数据就更多,而你给它的数据越多,它也(yě)越聪明。”
目前,晓多的标注团队从上(shàng)百亿的数据中进行分析提(tí)取的价(jià)值样本,提供给机器学习进行数据训练。
如果每(měi)一(yī)步(bù)都需要人工设计,从发(fā)现场景、总结规(guī)律,到最(zuì)后开发、测试、上线,可能需(xū)要至少两周的(de)时间才能扩展(zhǎn)一个场景,张(zhāng)翀介绍说(shuō),而(ér)使用这样的数据标注让(ràng)机器进(jìn)行深度学习,只(zhī)需要几天(tiān)的(de)时间,就可以同时扩展(zhǎn)几十个场(chǎng)景、几百个产品。
各个(gè)行业(yè)的电商客服需要应对的场景虽然有很(hěn)多(duō)差异,但有(yǒu)一些(xiē)数据却是通用的(de),包括关于快(kuài)递物流的问(wèn)答等。晓多对标注好的数据进行了模块拆分,区分出通(tōng)用数(shù)据,当机器人(rén)需(xū)要对新行业进行学习时,可以直接使用(yòng)这些(xiē)标注(zhù)好的通用数据,实现迅(xùn)速的(de)扩(kuò)展(zhǎn)学习。
谈(tán)到数据、算法(fǎ)和计算能力的关系,张翀认(rèn)为,数据是基础,大(dà)数(shù)据为机(jī)器学习装上引擎;算法(fǎ)是核心,将(jiāng)人工(gōng)智能带到全新高度(dù);而计算能(néng)力是保(bǎo)障(zhàng),为算法的(de)实现提供坚实的(de)后盾(dùn)。
不止于此,顾客体验迎来后智能化(huà)时(shí)代
从售前(qián)的(de)商品(pǐn)导购,到售中咨(zī)询运费、活动赠品等,目前(qián),晓多的上下文语(yǔ)义项目已经投入使用(yòng),覆(fù)盖(gài)了多(duō)种电商服务(wù)场景。这仅仅只是(shì)这项技术投入(rù)应用的第(dì)一步(bù),晓多的业(yè)务计划中,还涉及到更多(duō)的业务铺开。在售前,顾客可能会要(yào)求客服进行商品推荐(jiàn),他们的需求(qiú)点信(xìn)息包含在整个(gè)对话(huà)过程中(zhōng)。传(chuán)统的客服(fú)机器人只能根(gēn)据顾客最后的需求进行推荐,而晓(xiǎo)多机器人会对顾客的会(huì)话信(xìn)息进行分析(xī),更加准确地(dì)识别(bié)到顾客的(de)真(zhēn)实需求,推荐给顾客符合心意的产品。
点击(jī)图片查看(kàn)详细内容
另外,对于电商行业中热门的服装领域来(lái)说,售前的(de)服装尺码推荐是客服经常会遇到(dào)的问(wèn)题,店铺内大量(liàng)商品的尺(chǐ)码各(gè)不(bú)相同,尺码问题会耗费客服大量的(de)人力。通过上下文识别的(de)手段,客(kè)服机器人可以获取顾客的尺码(mǎ)信息,准(zhǔn)确地进行尺码推荐(jiàn)。
点(diǎn)击(jī)图片查看详细内容
在销售(shòu)过程中,顾客(kè)常常要询问运费问(wèn)题,这就(jiù)涉及到了首次购买和退换(huàn)货两种场景(jǐng)。没(méi)有上文语境,机(jī)器人(rén)就只能解读出“运费”,而不能准确地判断顾客询问的(de)是首次(cì)购物运费还(hái)是退换货运费(fèi),可能(néng)导致错误的回复(fù)。而在加入了上下文理(lǐ)解后(hòu),机器人能够准确(què)判断(duàn)顾(gù)客的实际问(wèn)题,准确地回(huí)复此类问题(tí)。
点击图片(piàn)查看详细内(nèi)容
另一(yī)个常见(jiàn)的售(shòu)中场景是关于活动(dòng)赠品的问题。当(dāng)店铺进(jìn)行(háng)活动优惠提供(gòng)赠品时,顾客的提问可能(néng)不是针对商品,而是(shì)针对赠品,需要机器人通过语境来(lái)识别(bié),防止混淆这两个(gè)方面的提问,给出张冠(guàn)李戴的答案。
这项技术不但可以应用在智能对话上,智能(néng)营销、智(zhì)能质检、情绪识(shí)别(bié)……客服行业中(zhōng)还存(cún)在着更多未被开(kāi)发的(de)可(kě)能(néng)性。
对于晓多来说(shuō),这意(yì)味着(zhe)他们(men)为顾客(kè)提供的服务,向超(chāo)专(zhuān)家级更进了(le)一步。“我们现(xiàn)在可(kě)能只(zhī)是把(bǎ)它应用在语义识别上,但(dàn)后续我(wǒ)们在其(qí)它(tā)业务线上还(hái)可以(yǐ)继续(xù)铺开。我们把它当成一个(gè)基础(chǔ)的能力,一个支撑我们(men)整个公司的算法产品。”张翀说。
晓(xiǎo)多(duō)也期待着,上下(xià)文语(yǔ)义识别可以作为技术(shù)基石应用到行(háng)业各个方(fāng)面(miàn),通(tōng)过推开这项技术的应用,机(jī)器(qì)人可以(yǐ)自动生(shēng)成(chéng)尺(chǐ)码表,自动获取个性化对话内容进行系(xì)统自动萃取对接等(děng)等,机器人行(háng)业一直(zhí)以来由人工配置的(de)时代可能走(zǒu)向(xiàng)终结,而迎来一个从数据(jù)中学(xué)习后智(zhì)能化自动生成(chéng)的时(shí)代。