米兰官方网页版-米兰MiLan(中国)

一条狗，即使是之前从（cóng）未见（jiàn）过的品种、颜色，我们也能一眼认出它（tā）。

对周（zhōu）遭任何变化的感知（zhī）是人类与生（shēng）俱来的能力。

但是人（rén）工（gōng）智能系统就不一样了，即使级别SOTA，能完成无数人类完成不了的任务，但也有很多对人类（lèi）来（lái）说轻而易举的事情（qíng），它却搞不定，比（bǐ）如，让（ràng）金毛（máo）换个角度：正（zhèng）面、侧面、前（qián）面、后面，人工智能可能会识别地很挣扎。

深度学习模型擅长（zhǎng）解释像素和标签之间的统计模式，但却很（hěn）难通过许多（duō）潜在的自然（rán）变化正确识别对象。

那（nà）是扫雪机（jī）在（zài）路（lù）上扫雪吗？还是一辆校车侧翻了？

上图是根（gēn）据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘（huì）制，显示了一个深度神经网络将一辆公（gōng）共汽车错误地分类为扫雪车。

人类可以（yǐ）瞬间知道，但是（shì）颜色、大小和透视（shì）等因素使情况复杂化（huà），增（zēng）加了人工智能模型的预测（cè）难度。

Facebook AI一直（zhí）在（zài）探索如何更好（hǎo）地捕（bǔ）捉自然变化，在这方面，传统解决方案有很大局限性（xìng），即所谓的解纠缠（disentanglement）。我（wǒ）们最近还（hái）提（tí）出了等变化（huà）移位算子（equivariant shift operator）的概念，这是一种替代解的（de）概念（niàn）证明（míng），可（kě）以（yǐ）帮助模型理解（jiě）通（tōng）过（guò）模拟最常见的变换，物体可能会发生怎样的变（biàn）化（huà）。

目前，Facebook AI在这（zhè）方面的（de）工作主要是（shì）理论（lùn）性（xìng）的，但是对于深度学习模型，特别是计算机（jī）视觉潜力巨大: 增加了可（kě）解释性和准确性，即使在小数（shù）据集上（shàng）训（xùn）练也有更好的性（xìng）能，并提高了（le）泛化能力。Facebook AI希望这些贡献能（néng）够使计算机视（shì）觉向前推进一（yī）步（bù），更好地理（lǐ）解视（shì）觉世界的复杂性（xìng）。

现行（háng）方法的局（jú）限（xiàn）

目前（qián）的解纠缠方法（fǎ）试图通过（guò）将模型中的每个因子编码（mǎ）到模型（xíng）内部表示的（de）一个单独的子空间中（zhōng），来（lái）学习（xí）模型中对（duì）象（xiàng）的基本变换。

例（lì）如，解纠缠可能将狗图像的数据（jù）集编码为姿态、颜色（sè）和品种子空间（jiān）。

这种方法在识（shí）别刚（gāng）性数据（jù）集的变化因素方面很有优（yōu）势，比如一个（gè）单（dān）一的 MNIST 数字或者一个单（dān）一的对象，比（bǐ）如一把（bǎ）椅子，但是我们已经发现，在多个分类中，解纠缠的表现（xiàn）很差。

想象一（yī）下多个旋转的（de）形状，比如三角形和正方形（xíng）。解纠缠模型试图（tú）将物体的（de）形状（zhuàng）和方向这两个变化（huà）因素分离（lí）成两个（gè）变化因素。

下（xià）图（tú）说明了传统（tǒng）的解纠缠是无法在多个形状的数据集（jí）中孤立旋（xuán）转的。我们期望（wàng）高亮显示的形状会旋转，但是（shì）由于解纠缠失败，形状仍（réng）然（rán）是固定的（de）。

解纠（jiū）缠还（hái）带来了拓扑缺陷，这（zhè）是一系列众（zhòng）多（duō）变换中的另一个问（wèn）题。拓扑（pū）缺陷违背连续性（xìng）——深（shēn）度（dù）学习模（mó）型（xíng）的本质属性。如果没（méi）有连续性，深度学习模型可能很（hěn）难（nán）有（yǒu）效地学习数据（jù）中（zhōng）的模式。

想象（xiàng）一下（xià）正（zhèng）三角形的旋转。旋转120度（dù）的正三（sān）角形与原来的三角形无法区分，导致在方向空间中（zhōng）有（yǒu）相同的表示。然（rán）而，通（tōng）过在三（sān）角（jiǎo）形的一个角上加一个（gè）无穷小的点，表示变得可辨别，违反了连续（xù）性。附近的（de）图（tú）像映射到相距较远的图像。Facebook AI的研究还表明，拓扑缺陷出现在（zài）非（fēi）对称形（xíng）状和许多（duō）其他常（cháng）见（jiàn）的（de）变换中（zhōng）。

利用等（děng）变化算子揭示变（biàn）化因子

有一个数学分（fèn）支「群论」可以教我们应用等变化算子的（de）很多知识（shí）。它表明，一个直观的方式来理解变化（huà）因素是将他们模拟为（wéi）一组转换。例如，一（yī）个三角形的旋转有一个（gè）组的结构: 90度旋转和30度旋转结（jié）合起（qǐ）来产生120度旋转。

Facebook AI利用这些想（xiǎng）法（fǎ）来识别（bié）传（chuán）统解纠（jiū）缠（chán）的缺点，并确定（dìng）如何（hé）训（xùn）练等变（biàn）化算子来（lái）解纠缠。我们提（tí）出了一个等变化算子，称（chēng）为移位算子。这是一个（gè）矩阵，其块体（tǐ）模仿了常见变换的组结构（gòu）--旋转（zhuǎn）、平移和重缩放。然后在原始（shǐ）图像（xiàng）和它们的转换上训练一（yī）个人（rén）工智能（néng）模型。