米兰官方网页版-米兰MiLan(中国)

前言（yán）：

想要实现全人类之间的顺畅交流，一直都是一个遥（yáo）不可及的美好期望，而人工智能的飞速发展，让我们看到了这一希望。

国内刚需明显提升

在中国，从事（shì）同传（chuán）工作的（de），大多数是英语专业背景，精通全领域（yù）是（shì）充分而（ér）非（fēi）必要（yào）条件。而面对涉及（jí）医疗、数学和物（wù）理等领（lǐng）域的会（huì）议时，同传人员并不能（néng）很（hěn）好（hǎo）地将这些相（xiàng）关术语准地（dì）翻译。

当学术盲点变成了行业痛点（diǎn），以语（yǔ）音（yīn）智能见长的科技公司便主动出击，抓住了（le）同声传译这一（yī）细（xì）分市场的机（jī）遇，迭代到3．0版本的搜狗同传便（biàn）是向（xiàng）这一细分市场（chǎng）布局（jú）的开端。

机器同传的产品（pǐn）价值，主（zhǔ）要体现在其致力于解决跨语言交流、跨语言信息获取和语（yǔ）言（yán）表（biǎo）达（dá）的电子化（huà）记录等障碍。若要真正实（shí）现（xiàn）这三点，不能单（dān）纯地把语音识别和机（jī）器翻译做（zuò）嫁接，而需要一套完整（zhěng）的（de）有机系统。

Ai芯天（tiān）下（xià）丨观（guān）点丨陈（chén）伟：AI语音市场要靠3.0技术撬（qiào）动 portant;" />

语（yǔ）境引擎＝多（duō）模态＋知识（shí）图谱（pǔ）

去年12月（yuè），基于语境引（yǐn）擎的搜狗同传3．0以多模（mó）态和自（zì）主学习为核心，加入视觉和思维能力，这是AI同传在加入诸如（rú）视觉AI、知识图谱等（děng）能力后的再度进化。

最（zuì）新发布的搜狗同传3．0，内核进化（huà）成为了语境引擎。除了“语（yǔ）音（yīn）信息＋OCR”的结合方式，升级后的产品（pǐn），最大亮点是在“能听会看”的多模（mó）态（tài）基础上，注入了（le）思考和推理能力，背（bèi）后靠（kào）的是知识图谱的加持。

多模态同传，即AI获取（qǔ）信息（xī）的（de）渠道不再是语音（yīn），还（hái）包含图像等其他内容（róng）。这种（zhǒng）多模态的交互方式是搜狗一直坚信的（de）趋势，也是与人最自然的一种交流方式。

“会看”，意（yì）味着同传首（shǒu）次具备（bèi）了视（shì）觉能力。“能理解会（huì）推理”，则（zé）意味着同传具备了（le）与人“共情”的能力。

Ai芯天下丨（shù）观点（diǎn）丨陈伟（wěi）：AI语（yǔ）音市场要靠（kào）3.0技术撬动 portant;" />

基于（yú）语（yǔ）境引擎（qíng）开发（fā）的搜狗同传3．0为演讲者构建（jiàn）了（le）个性化的认知语（yǔ）境，能够跟随演讲者一起“思考”，无疑是AI同传领域的又（yòu）一大（dà）技术创新。

可以像（xiàng）人类一样（yàng），从语音和图像中获（huò）取信息，不仅会听（tīng），还（hái）能同时（shí）看图、查资料，从而提高了同声传译的准确性，在AI同传落地应用中属（shǔ）首创。

尤其是面对专有名词、专（zhuān）业术语较多的场景，相比传统只依赖语音的技（jì）术，针对PPT内容将翻译的正确率提升了40．3％。

Ai芯天下丨（shù）观点丨陈（chén）伟：AI语音市场要（yào）靠（kào）3.0技术撬动 portant;" />

陈（chén）伟认为，多模态（tài）技（jì）术（shù）是未（wèi）来人（rén）机（jī）交互的发展方向。从搜狗（gǒu）同传的技术升级之路（lù）中（zhōng），我们也（yě）可以看出搜狗（gǒu）下一步的计划。

据陈伟介（jiè）绍，搜狗（gǒu）同传（chuán）3．0相（xiàng）对于上一（yī）代产品主要（yào）有三方面能力（lì）的提升：

更加接（jiē）近自然，从单（dān）纯的语音识别到语音＋图像，新的方法模拟了人工同（tóng）传的工作方式，增加视（shì）觉（jiào）和大脑（nǎo）扩散知识点的功能，拥有更为（wéi）复杂的感知系统。

更加专业，此前（qián）的AI同传模型使用（yòng）通用数（shù）据，新（xīn）的模型通过实时定制知识增（zēng）强能（néng）力，能够捕捉（zhuō）现场PPT内容补充演讲相关的专业领域（yù）的知识（shí），并（bìng）针对每一个演讲进（jìn）行模型定制，提升同（tóng）传效果。

Ai芯天下丨观（guān）点丨（shù）陈伟：AI语音市场要靠3.0技术（shù）撬动 portant;" />

搜狗同传的技（jì）术迭代之路

2016年11月推出（chū）的搜狗同（tóng）传（chuán）1．0通用语音（yīn）同传是首个商用机器同传产品，实现了语音（yīn）同传（chuán）的（de）功能。

2018年，搜狗同传2．0集成TTS，首（shǒu）次实现语音（yīn）到语音（yīn）同（tóng）传，并可根据用户语料实时定制，同时（shí）它还用（yòng）上了首个英译（yì）中同传引擎。

到3．0，搜狗同传已经是（shì）一款业内首（shǒu）创的多模态＋自主学（xué）习的（de）同（tóng）传产（chǎn）品（pǐn），能听（tīng）、会（huì）看，能理解、会推理是它的特点，同时增加了实（shí）时捕捉PPT内容（róng）的功能。

搜狗1．0时，输入仅是语音，2．0开始做语音＋个性（xìng）化，以及说（shuō）话人的语境背景输入（rù）；3．0加入（rù）了知识图谱，把（bǎ）语音、视觉等信息作为语音识别的输入。现在，业（yè）内技术（shù）普遍介于1．0和2．0之间，而搜狗依靠图谱方式，已经率先进入3．0时代。

2．0时代，搜（sōu）狗同传会（huì）首先对文本进行规（guī）则化，让文（wén）本变得流利，丢弃一些（xiē）语义词和停顿词等，但会遇到（dào）延时（shí）很大的问题。

在3．0时（shí）代，搜狗同传（chuán）加入了语义单元（yuán），识别判断一句话为独立的一个单（dān）元，系统可以（yǐ）在讲话者（zhě）说话的同（tóng）时可（kě）以立即上（shàng）屏，降低同传（chuán）系统的延迟（chí）。

Ai芯天（tiān）下（xià）丨观点（diǎn）丨（shù）陈伟：AI语音市场要靠3.0技（jì）术撬动（dòng） portant;" />

机器（qì）翻译与人工之间（jiān）的差距在拉近

机器翻（fān）译的历史可能比大多数人想象中都（dōu）要久远，1954年初，乔治城大学的实验的一台电（diàn）脑（nǎo）成功将四十多条俄文句子自动翻（fān）译（yì）成英文，这一（yī）事件成为机（jī）器翻译史中（zhōng）的一个里程碑，标志着现代机（jī）器翻译（yì）的（de）开端。

60多年过去了，机（jī）器翻译产品已经走进每个（gè）人的日常生活（huó），在（zài）大型（xíng）会议等场景下被广（guǎng）泛采用。

虽然翻译效果仍有待（dài）提高，但机（jī）器翻译已经成为（wéi）提高翻（fān）译效率不可或（huò）缺的工具（jù），并（bìng）催生了一大批（pī）从事AI翻译研究的企业，国内有搜狗、腾讯（xùn）、科大（dà）讯飞（fēi）等，国外有谷歌（gē）、微软等。

翻译（yì）领域有些工作（zuò）是有重复性（xìng）的，包括同传（chuán）领域，机器在某些方面（miàn）会优于人工（gōng），比如知识面（miàn）、领（lǐng）域知识的拓（tuò）展性上（shàng），机（jī）器比真人的知识面（miàn）更广阔，并能够（gòu）快速查询背后海量的（de）知识体（tǐ）系，这比真人（rén）在某些领域（yù）的翻译上（shàng）的准确率更高（gāo）。

在支持了上千场会议之后，他们发现从（cóng）成本（běn）上（shàng）来看，机器（qì）翻译的成本（běn）一定是低于人工的，且边际成（chéng）本会随着使用量（liàng）增（zēng）加越来越低。

与人相（xiàng）比，机器（qì）翻译成本更低，需要支持（chí）的设备也更少（shǎo），一台笔（bǐ）记本（běn），一条视频（pín）线、一条音频线（xiàn），连（lián）上就可以工作。

机器同（tóng）传在未来的地位

从机器（qì）同传（chuán）的（de）流程来看，当机器（qì）视觉捕捉（zhuō）到核（hé）心关键词（cí）之（zhī）后，会根据搜（sōu）狗的（de）知（zhī）识图谱技术（shù），把相关的词汇以及专业（yè）领域（yù）相关的词语拓展出（chū）来，作为语音识别和翻译的加强。

未来，机器同传可向（xiàng）记者采访、跨（kuà）国办公会（huì）议、中英文视频直播、字幕翻译（yì）等场景（jǐng）延（yán）展。这（zhè）些应（yīng）用场景最（zuì）主要的挑战，是怎么保证机（jī）器同传的稳（wěn）定效果，考验的是采集设备、网（wǎng）络（luò）环境、识别能（néng）力（lì）等（děng）。

未来（lái）面向人和机器交互过（guò）程中，一定（dìng）是（shì）多模态的，搜狗提倡的技术（shù）主张，使机器同传和同类（lèi）产品拉（lā）开（kāi）了（le）一（yī）代之差。他们（men）还是以同传为主（zhǔ），搜狗（gǒu）已经从语音（yīn）跨到（dào）了多（duō）模态，并把对于知（zhī）识和语音的理解放进（jìn）去（qù），使同传开始（shǐ）具（jù）备一定的（de）认（rèn）知能力（lì）。

而搜狗在AI语音（yīn）商业化的进程，最终（zhōng）的指向（xiàng）还是（shì）消费者端。未（wèi）来（lái）各（gè）种各样的（de）场合都可能用到搜（sōu）狗同（tóng）传的技术（shù），通过同传打磨的能力（lì）也可（kě）以反向（xiàng）用于C端产品。

一（yī）直（zhí）以来（lái），人工智能技术只能在（zài）展示在（zài）实验室中，随着深度学习等技术的研究成熟，人工智能技术加持（chí）的产品也逐渐开始落地（dì）。

多模态技术未（wèi）来发展

很多公司都意识到多模态技（jì）术重要性，并将（jiāng）研究成果落地到（dào）各种应用中，比（bǐ）如（rú）腾讯、优酷等视（shì）频网（wǎng）站平（píng）台，快（kuài）手（shǒu）等短视频平台都将（jiāng）多模（mó）态技术应用于内容理解上（shàng），在获取用户和加强与用户的互动交流上起到了重要作用。

目前关（guān）于多模态的研究课题还是要从产品和实际需（xū）求（qiú）倒推功能，这涉及到异构数（shù）据融合的问题。

多模态表达，在（zài）语（yǔ）义上如何（hé）进行（háng）对齐，提取同一需求的多模态特征（zhēng），如何更好地跨越语义的鸿沟，异构数（shù）据如何融合，都是多模态（tài）技术会遇到的问题。

随着精度的逐（zhú）步提高，搜狗同传所采用的AI技术，未来还将有（yǒu）更（gèng）广阔的的应用空间，赋予我（wǒ）们（men）更多的可能性。比如，实（shí）时私人翻译乃至文学作品的译制，可（kě）以让（ràng）我（wǒ）们足不出户，享受第一手国际作品的字幕体（tǐ）验。

而（ér）在跨（kuà）国界、跨领域等项目合作方面，逐渐实现无缝（féng）对（duì）接，能够显著提高整（zhěng）体的工程协作效率（lǜ）。

结尾：

当（dāng）然必（bì）须要承认，无论是搜狗（gǒu）同传还是其他玩家（jiā），大（dà）家目前（qián）距离（lí）顶级（jí）同传的（de）水准还有（yǒu）很长的路要走，目前的机器同（tóng）传（chuán）能（néng）力（lì）和顶级人（rén）工同传相比，仍存在不（bú）小的差距。