前言(yán):
想要实现全人类之间的顺畅交流,一直都是一个遥(yáo)不可及的美好期望,而人工智能的飞速发展,让我们看到了这一希望。
国内刚需明显提升
在中国,从事(shì)同传(chuán)工作的(de),大多数是英语专业背景,精通全领域(yù)是(shì)充分而(ér)非(fēi)必要(yào)条件。而面对涉及(jí)医疗、数学和物(wù)理等领(lǐng)域的会(huì)议时,同传人员并不能(néng)很(hěn)好(hǎo)地将这些相(xiàng)关术语准地(dì)翻译。
当学术盲点变成了行业痛点(diǎn),以语(yǔ)音(yīn)智能见长的科技公司便主动出击,抓住了(le)同声传译这一(yī)细(xì)分市场的机(jī)遇,迭代到3.0版本的搜狗同传便(biàn)是向(xiàng)这一细分市场(chǎng)布局(jú)的开端。
机器同传的产品(pǐn)价值,主(zhǔ)要体现在其致力于解决跨语言交流、跨语言信息获取和语(yǔ)言(yán)表(biǎo)达(dá)的电子化(huà)记录等障碍。若要真正实(shí)现(xiàn)这三点,不能单(dān)纯地把语音识别和机(jī)器翻译做(zuò)嫁接,而需要一套完整(zhěng)的(de)有机系统。
portant;" />
语(yǔ)境引擎=多(duō)模态+知识(shí)图谱(pǔ)
去年12月(yuè),基于语境引(yǐn)擎的搜狗同传3.0以多模(mó)态和自(zì)主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如(rú)视觉AI、知识图谱等(děng)能力后的再度进化。
最(zuì)新发布的搜狗同传3.0,内核进化(huà)成为了语境引擎。除了“语(yǔ)音(yīn)信息+OCR”的结合方式,升级后的产品(pǐn),最大亮点是在“能听会看”的多模(mó)态(tài)基础上,注入了(le)思考和推理能力,背(bèi)后靠(kào)的是知识图谱的加持。
多模态同传,即AI获取(qǔ)信息(xī)的(de)渠道不再是语音(yīn),还(hái)包含图像等其他内容(róng)。这种(zhǒng)多模态的交互方式是搜狗一直坚信的(de)趋势,也是与人最自然的一种交流方式。
“会看”,意(yì)味着同传首(shǒu)次具备(bèi)了视(shì)觉能力。“能理解会(huì)推理”,则(zé)意味着同传具备了(le)与人“共情”的能力。
portant;" />
基于(yú)语(yǔ)境引擎(qíng)开发(fā)的搜狗同传3.0为演讲者构建(jiàn)了(le)个性化的认知语(yǔ)境,能够跟随演讲者一起“思考”,无疑是AI同传领域的又(yòu)一大(dà)技术创新。
可以像(xiàng)人类一样(yàng),从语音和图像中获(huò)取信息,不仅会听(tīng),还(hái)能同时(shí)看图、查资料,从而提高了同声传译的准确性,在AI同传落地应用中属(shǔ)首创。
尤其是面对专有名词、专(zhuān)业术语较多的场景,相比传统只依赖语音的技(jì)术,针对PPT内容将翻译的正确率提升了40.3%。
portant;" />
陈(chén)伟认为,多模态(tài)技(jì)术(shù)是未(wèi)来人(rén)机(jī)交互的发展方向。从搜狗(gǒu)同传的技术升级之路(lù)中(zhōng),我们也(yě)可以看出搜狗(gǒu)下一步的计划。
据陈伟介(jiè)绍,搜狗(gǒu)同传(chuán)3.0相(xiàng)对于上一(yī)代产品主要(yào)有三方面能力(lì)的提升:
更加接(jiē)近自然,从单(dān)纯的语音识别到语音+图像,新的方法模拟了人工同(tóng)传的工作方式,增加视(shì)觉(jiào)和大脑(nǎo)扩散知识点的功能,拥有更为(wéi)复杂的感知系统。
更加专业,此前(qián)的AI同传模型使用(yòng)通用数(shù)据,新(xīn)的模型通过实时定制知识增(zēng)强能(néng)力,能够捕捉(zhuō)现场PPT内容补充演讲相关的专业领域(yù)的知识(shí),并(bìng)针对每一个演讲进(jìn)行模型定制,提升同(tóng)传效果。
portant;" />
搜狗同传的技(jì)术迭代之路
2016年11月推出(chū)的搜狗同(tóng)传(chuán)1.0通用语音(yīn)同传是首个商用机器同传产品,实现了语音(yīn)同传(chuán)的(de)功能。
2018年,搜狗同传2.0集成TTS,首(shǒu)次实现语音(yīn)到语音(yīn)同(tóng)传,并可根据用户语料实时定制,同时(shí)它还用(yòng)上了首个英译(yì)中同传引擎。
到3.0,搜狗同传已经是(shì)一款业内首(shǒu)创的多模态+自主学(xué)习的(de)同(tóng)传产(chǎn)品(pǐn),能听(tīng)、会(huì)看,能理解、会推理是它的特点,同时增加了实(shí)时捕捉PPT内容(róng)的功能。
搜狗1.0时,输入仅是语音,2.0开始做语音+个性(xìng)化,以及说(shuō)话人的语境背景输入(rù);3.0加入(rù)了知识图谱,把(bǎ)语音、视觉等信息作为语音识别的输入。现在,业(yè)内技术(shù)普遍介于1.0和2.0之间,而搜狗依靠图谱方式,已经率先进入3.0时代。
2.0时代,搜(sōu)狗同传会(huì)首先对文本进行规(guī)则化,让文(wén)本变得流利,丢弃一些(xiē)语义词和停顿词等,但会遇到(dào)延时(shí)很大的问题。
在3.0时(shí)代,搜狗同传(chuán)加入了语义单元(yuán),识别判断一句话为独立的一个单(dān)元,系统可以(yǐ)在讲话者(zhě)说话的同(tóng)时可(kě)以立即上(shàng)屏,降低同传(chuán)系统的延迟(chí)。
portant;" />
机器(qì)翻译与人工之间(jiān)的差距在拉近
机器翻(fān)译的历史可能比大多数人想象中都(dōu)要久远,1954年初,乔治城大学的实验的一台电(diàn)脑(nǎo)成功将四十多条俄文句子自动翻(fān)译(yì)成英文,这一(yī)事件成为机(jī)器翻译史中(zhōng)的一个里程碑,标志着现代机(jī)器翻译(yì)的(de)开端。
60多年过去了,机(jī)器翻译产品已经走进每个(gè)人的日常生活(huó),在(zài)大型(xíng)会议等场景下被广(guǎng)泛采用。
虽然翻译效果仍有待(dài)提高,但机(jī)器翻译已经成为(wéi)提高翻(fān)译效率不可或(huò)缺的工具(jù),并(bìng)催生了一大批(pī)从事AI翻译研究的企业,国内有搜狗、腾讯(xùn)、科大(dà)讯飞(fēi)等,国外有谷歌(gē)、微软等。
翻译(yì)领域有些工作(zuò)是有重复性(xìng)的,包括同传(chuán)领域,机器在某些方面(miàn)会优于人工(gōng),比如知识面(miàn)、领(lǐng)域知识的拓(tuò)展性上(shàng),机(jī)器比真人的知识面(miàn)更广阔,并能够(gòu)快速查询背后海量的(de)知识体(tǐ)系,这比真人(rén)在某些领域(yù)的翻译上(shàng)的准确率更高(gāo)。
在支持了上千场会议之后,他们发现从(cóng)成本(běn)上(shàng)来看,机器(qì)翻译的成本(běn)一定是低于人工的,且边际成(chéng)本会随着使用量(liàng)增(zēng)加越来越低。
与人相(xiàng)比,机器(qì)翻译成本更低,需要支持(chí)的设备也更少(shǎo),一台笔(bǐ)记本(běn),一条视频(pín)线、一条音频线(xiàn),连(lián)上就可以工作。
机器同(tóng)传在未来的地位
从机器(qì)同传(chuán)的(de)流程来看,当机器(qì)视觉捕捉(zhuō)到核(hé)心关键词(cí)之(zhī)后,会根据搜(sōu)狗的(de)知(zhī)识图谱技术(shù),把相关的词汇以及专业(yè)领域(yù)相关的词语拓展出(chū)来,作为语音识别和翻译的加强。
未来,机器同传可向(xiàng)记者采访、跨(kuà)国办公会(huì)议、中英文视频直播、字幕翻译(yì)等场景(jǐng)延(yán)展。这(zhè)些应(yīng)用场景最(zuì)主要的挑战,是怎么保证机(jī)器同传的稳(wěn)定效果,考验的是采集设备、网(wǎng)络(luò)环境、识别能(néng)力(lì)等(děng)。
未来(lái)面向人和机器交互过(guò)程中,一定(dìng)是(shì)多模态的,搜狗提倡的技术(shù)主张,使机器同传和同类(lèi)产品拉(lā)开(kāi)了(le)一(yī)代之差。他们(men)还是以同传为主(zhǔ),搜狗(gǒu)已经从语音(yīn)跨到(dào)了多(duō)模态,并把对于知(zhī)识和语音的理解放进(jìn)去(qù),使同传开始(shǐ)具(jù)备一定的(de)认(rèn)知能力(lì)。
而搜狗在AI语音(yīn)商业化的进程,最终(zhōng)的指向(xiàng)还是(shì)消费者端。未(wèi)来(lái)各(gè)种各样的(de)场合都可能用到搜(sōu)狗同(tóng)传的技术(shù),通过同传打磨的能力(lì)也可(kě)以反向(xiàng)用于C端产品。
一(yī)直(zhí)以来(lái),人工智能技术只能在(zài)展示在(zài)实验室中,随着深度学习等技术的研究成熟,人工智能技术加持(chí)的产品也逐渐开始落地(dì)。
多模态技术未(wèi)来发展
很多公司都意识到多模态技(jì)术重要性,并将(jiāng)研究成果落地到(dào)各种应用中,比(bǐ)如(rú)腾讯、优酷等视(shì)频网(wǎng)站平(píng)台,快(kuài)手(shǒu)等短视频平台都将(jiāng)多模(mó)态技术应用于内容理解上(shàng),在获取用户和加强与用户的互动交流上起到了重要作用。
目前关(guān)于多模态的研究课题还是要从产品和实际需(xū)求(qiú)倒推功能,这涉及到异构数(shù)据融合的问题。
多模态表达,在(zài)语(yǔ)义上如何(hé)进行(háng)对齐,提取同一需求的多模态特征(zhēng),如何更好地跨越语义的鸿沟,异构数(shù)据如何融合,都是多模态(tài)技术会遇到的问题。
随着精度的逐(zhú)步提高,搜狗同传所采用的AI技术,未来还将有(yǒu)更(gèng)广阔的的应用空间,赋予我(wǒ)们(men)更多的可能性。比如,实(shí)时私人翻译乃至文学作品的译制,可(kě)以让(ràng)我(wǒ)们足不出户,享受第一手国际作品的字幕体(tǐ)验。
而(ér)在跨(kuà)国界、跨领域等项目合作方面,逐渐实现无缝(féng)对(duì)接,能够显著提高整(zhěng)体的工程协作效率(lǜ)。
结尾:
当(dāng)然必(bì)须要承认,无论是搜狗(gǒu)同传还是其他玩家(jiā),大(dà)家目前(qián)距离(lí)顶级(jí)同传的(de)水准还有(yǒu)很长的路要走,目前的机器同(tóng)传(chuán)能(néng)力(lì)和顶级人(rén)工同传相比,仍存在不(bú)小的差距。