米兰官方网页版-米兰MiLan(中国)

科技巨头们时不时就声（shēng）明（míng）在 AI 领域取得了突破性进展，对此我们已经见（jiàn）惯（guàn）不惊了。

当地时间（jiān） 2020 年 1 月 28 日，Google 在一篇（piān）博客中介绍了（le）一款（kuǎn）开放领域聊天机器人 Meena，号称“史上（shàng）最强”，那么这一新突破（pò）会让人眼前一亮（liàng）吗？

26 亿（yì）参数量，水平接近人（rén）类，Google 的开放领域聊天（tiān）机器人意义何在？

【图片（piàn）来源（yuán）：Google Blog 所有者：Google Blog 】

开放领域（yù）聊天机器人开发难度大

实（shí）际上，设计智能（néng）聊天机器人（rén）是为了应对信息爆（bào）炸时（shí）代存（cún）在（zài）的信息过载（zǎi）问（wèn）题。最初，人们把聊天（tiān）机器人当作搜索引擎的终极形态（tài）进行设计和开发。不同于现有的搜（sōu）索引擎，聊天机器人可针对用户的问题自然（rán）又通顺地给出精准的答案，节（jiē）约了很多时（shí）间，从而带（dài）来更（gèng）好的用户（hù）体（tǐ）验。

根（gēn）据使用场景划分，聊天机器人（chatbot）主要有开放域型（Open-Domain）和任（rèn）务导向型（Task-Oriented）两种。

其中，任务（wù）导向型主（zhǔ）要有（yǒu）问答系统（tǒng）、对话系统（tǒng）聊（liáo）天（tiān）机器人，分别指基于用户的（de）问题给（gěi）出一个（gè）回（huí）答（常（cháng）用于（yú）智能搜索、智能家居中的家电控制等场景）和与（yǔ）用户进行（háng）多轮对话的聊天机器（qì）人（如客服机器人，销（xiāo）售机器人等）。

而开（kāi）放领域聊天（tiān）机器人（也（yě）称闲聊式机器人）顾（gù）名思义针（zhēn）对开放域的（de）对话（huà）场景，主题、内（nèi）容不限，比（bǐ）如微软小冰（bīng）和（hé）苹果 Siri。Google 在上述博客中表示：

开放（fàng）领域聊天机（jī）器人（rén）的研究（jiū）不（bú）仅具有学（xué）术（shù）价值，还可激发很多有趣的应用，如更深层（céng）次的人机交互、提升外语（yǔ）训练（liàn）效（xiào）果，以（yǐ）及（jí）制（zhì）作交互式（shì）电影和游戏（xì）角色。

值得（dé）一提的（de）是，开放领域聊天机器（qì）人更（gèng）符合人们心（xīn）中对「人工智能」的定位，开（kāi）发难度自然也很大——当前（qián）开放领域聊（liáo）天机（jī）器人面临的一个严峻问题在于（yú）它们表达的内容往往没有意（yì）义，无（wú）法与用（yòng）户的问题连贯起来（lái），而且由于缺乏基（jī）本（běn）的常识和认知，不（bú）能给出针对（duì）性的回复。

而 Google 开发的 Meena 正是一款开放（fàng）领（lǐng）域（yù）聊天（tiān）机器人，那么相比现有（yǒu）的（de）聊天机器人（rén），究（jiū）竟有何突破？

26 亿参数（shù）量，水平接近人类，Google 的开放领域（yù）聊天机器人意义何在？

【 Meena 和（hé）人类的（de）对话内容图片来源（yuán）：Google Blog 】

26 亿参数的端到端神经对话模型

Google 在博客中介绍称，Meena 是个 26 亿（yì）参数的（de）端到端训练的（de）神经会话模型，是 GPT-2 模型（xíng）最（zuì）大（dà）版本（běn）（15 亿（yì）参数）的 1.7 倍（bèi）。据称（chēng），Google 利用 400 亿字的数据集，通过（guò） 2048 个张（zhāng）量处理单元（即（jí） Tensor Processing Unit，Google 专用 AI 芯片）训练（liàn）了（le） 30 天，得到了最（zuì）佳版本。实验表明，比起聊天机器人 SOTA，Meena 能更好地完成对话，内容也更具体、清（qīng）楚。

据悉，Meena 由 1 个（gè） Evolved Transformer 编码器和 13 个 Evolved Transformer 解码器组成：编码器用于处（chù）理对话语境，有助于 Meena 理解对方的（de）话；而解（jiě）码器则会利用信（xìn）息生成回复。而在这一过程中，Google 表（biǎo）示：

研究人员（yuán）发现，超参数（shù）调整后，实现高质量对话的关键在于性能更强的解码器。

【图片（piàn）来（lái）源：Google Blog 所有者：Google Blog 】

雷锋网（wǎng）了解（jiě）到，Google 从公共（gòng）领域（yù）社交（jiāo）媒体对话上过滤得到（dào）了 341GB 的文（wén）本（běn），并以（yǐ）树状（zhuàng）脉络形式组织（zhī）文本进（jìn）行「多（duō）轮（lún）对话（huà）」训练（liàn）。研究者将（jiāng）每轮对话作为训练（liàn）样本，同时每轮之前的（de） 7 轮（lún）对（duì）话为语境信息，共同构成一（yī）组数据。据（jù）悉，选（xuǎn）择 7 轮对话作为（wéi）语境，既（jì）能保（bǎo）证（zhèng）训练（liàn）过（guò）程获得足够长的语境信息，同时模（mó）型（xíng）也（yě）能不（bú）超过内存限制。毕竟文本越长，占用的（de）内存（cún）也越（yuè）多（duō）。

新（xīn）提出（chū）的人类（lèi）评价指标 SSA

根据博客，上述这些表（biǎo）现是由 Google 根据新提出的人类评价（jià）指标「Sensibleness and Specificity Average (SSA)」得出（chū）的，而此（cǐ）次提出新的指标（biāo）是（shì）因为，目（mù）前聊天（tiān）机器人的（de）人（rén）类评（píng）价指标（biāo）颇为（wéi）复杂，而（ér）且也很难（nán）形成一致的评价指标。Google 表（biǎo）示，SSA 能捕（bǔ）获基本的、但对人类对话来（lái）说很重要的属（shǔ）性。

为计算这一指（zhǐ）标，研究者（zhě）测试了 Meena、Mitsuku、Cleverbot、DialoGPT 及小冰（bīng）等（děng）常见的聊（liáo）天（tiān）机器（qì）人。在（zài）测试中，对于每一款聊天（tiān）机器人，研究者都在（zài） 100 个对话中（zhōng）收（shōu）集了 1600 到 2400 轮（lún），各聊天机器（qì）人的（de）回复（fù）都由人（rén）类评价者评分（主要依据对话的流畅性和回答（dá）的准确性），其（qí）各自性能表现如（rú）下图。

26 亿参数（shù）量（liàng），水平接近人类，Google 的开放领域聊天机器人意义（yì）何在（zài）？

【图片来源：Google Blog 所有者：Google Blog 】

不难看出（chū），Meena 相（xiàng）比于现有的（de） SOTA 聊天机器人（rén），有（yǒu）着更高的 SSA 分数，甚至接近于人类（lèi）的表现。

困惑度与 SSA 强相关

毫（háo）无疑问，人类（lèi）评（píng）价或（huò）多或（huò）少（shǎo）存在一些问题，因此很（hěn）多研究者都希望找到一个（gè）能够自动计算的评价指标，而（ér）且这个（gè）指（zhǐ）标要能和人类评价（jià）准确对（duì）应（yīng）。

雷（léi）锋网了解（jiě）到，困惑度（perplexity，指（zhǐ）一（yī）种任何神经会话模型都（dōu）能轻易（yì）获（huò）得（dé）的（de）计算（suàn）指标）是 seq2seq 模型（雷锋网注：一（yī）种循环神（shén）经网（wǎng）络（luò）的变种，包括编码器和解码器两（liǎng）部分（fèn），是（shì）自然语言处理中的（de）一种重要模型，可用于机器翻译、对话系统、自动文摘）中（zhōng）的一个常见（jiàn）指（zhǐ）标，用于评价语言模型（xíng）的不（bú）确定性。

而值得一提的是，Google 证明了（le）困惑度与 SSA 高度相关。

实际上，训练 Meena 正是为了最大（dà）程度地减少困惑度，以及预（yù）测下一（yī）个标记（雷锋（fēng）网(公众（zhòng）号：雷锋网)注：指对话（huà）中（zhōng）的下一个（gè）单词）的不确定（dìng）性——据博客称，这（zhè）是因为（wéi） Meena 的核心为 Evolved Transformer seq2seq 架构，即一种通过进化（huà）神经架构搜索发现的 Transformer 体（tǐ）系结构，能够（gòu）改善困惑（huò）度。

在博客中 Google 表示，研（yán）究（jiū）者依据层（céng）数、注意力数量、训练步数、编码器、训练方式等因素，共测试了（le） 8 种不同的模（mó）型（xíng），发现困惑（huò）度（dù）越低，SSA 分数越高，同（tóng）时两者的相关系数很高（R^2 = 0.93）。

26 亿参数量（liàng），水平（píng）接近人类，Google 的开放领域聊天机器人意义何在？

【图片来源：Google Blog 所有者：Google Blog 】

同时（shí） Google 表示：

研（yán）究者（zhě）将继续通过改进算法、架（jià）构、数据和计（jì）算量等，降低这一神经会（huì）话模型（xíng）的困（kùn）惑（huò）度。

Meena 意义大吗？

根据博客中（zhōng）展示的数据，我们相信 Meena 的确（què）性能出众，不过 Meena 究竟什么时候能推出、真（zhēn）正推出后表现如何，可（kě）能（néng）都要打问号。博客中（zhōng）提到，目（mù）前研究团队正在就（jiù）这一（yī）研究的风险（xiǎn）及益处做进一步的评估，并可能在未来几个（gè）月内（nèi）推出 Meena，旨在推动该领域的发展。

对此，VentureBeat 记（jì）者 Ronald Ashri 在其报道中表示：

首先我们要意识到，即便 Google 开源所有代（dài）码，也很少有人能（néng）培训（xùn）类（lèi）似 Meena 的模型。Meena 应该还在（zài）实验室里（lǐ），操作起来（lái）也非常（cháng）复杂，还不（bú）能将其整合到一个工（gōng）具中，而（ér）且 Google 也不可能很快（kuài）就将其作为一项服务向用户提供。因此（cǐ），恐怕短期（qī）内 Meena 难以推出。

另外，在（zài）实用（yòng）性方面，诚然 Meena 作为（wéi）一款开（kāi）放领域聊天机器人，能够实现多轮对话。不过 Meena 并不能（néng）协助用户完成某项任务、学习（xí）某项新技能，或为身处困境的用户给予情感或心理（lǐ）支持，和用户的（de）聊天没有明确的目的。而耗费时（shí）间进行无意义的交谈，在我们（men）所处的时代大背景下似乎（hū）并非理想产品。

与（yǔ）此（cǐ）同（tóng）时（shí），记者 Ronald Ashri 也对 Meena 提出（chū）了进一步质疑。正如上文（wén）所述，Google 从公共领域社交媒（méi）体对（duì）话上过滤得到了 341GB 的文本，以此进行进（jìn）一步的训（xùn）练。那么，数百万的公共领（lǐng）域社交（jiāo）媒体对（duì）话会是这一所谓的「史（shǐ）上最强（qiáng）聊天机器人」的正（zhèng）确（què）数据集吗？Meena 是否会讲出不恰当的话，可能也是一个我们（men）要关注（zhù）的点。

近年来，随着越（yuè）来越多的 AI 聊天解（jiě）决方案进（jìn）入生活，我们（men）需要关注最（zuì）有价值的东西（xī）——定（dìng）义类似人类的对话，并探究这类对话在（zài）聊天机器人领域中（zhōng）的角色。

正如 Ronald Ashri 所说：