神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:图像识别既是深度学习最早的突破,也是最成功的应用之一。但是随着应用的深入,传统深度学习方法逐渐黔驴技穷。甚至令一些业界大牛喊出来AI新的凛冬将至。不过,最近AI研究人员从物理学规律上寻找到了灵感,找到了让机器可以识别高维度对象的办法,然后物理学家又发现,AI的这一进展甚至还能为物理研究做出更大的贡献。这是一篇“规范等变卷积神经网络”的介绍读物,作者是JOHN PAVLUS,原文发表在Quanta Magazine上,标题是:Computers Are Learning to See in Higher Dimensions
描绘肺部3D形状的图像——新的深度学习技术有望更准确地识别出CT扫描的肺部肿瘤,从而帮助做出更好的医学诊断
计算机现在能开车,下国际象棋和围棋之类的棋盘游戏比世界冠军还要厉害,甚至还会写文章。AI革命在很大程度上源于一种特殊类型的人工神经网络的力量,其设计灵感则源自哺乳动物视觉皮层里面的神经元连接层。事实证明,这些“卷积神经网络”(CNN)二维数据模式学习能力惊人——这种AI尤其擅长计算机视觉任务,比方说识别手写体和数字图像里面的对象。
但是,如果应用到没有内置平面几何的数据集(比方说3D计算机动画用到的不规则形状模型,或者无人车生成的映射周围环境的点云)里面的话,这种强大的机器学习结构就做得不是很好了。2016年前后,出现了一种称为几何深度学习的新学科,其目标就是要让CNN挣脱二维平面。
研究人员现在已经提出一个新的理论框架,用来构建可学习任何几何表面模式的神经网络。由阿姆斯特丹大学与高通 AI研究中心的Taco Cohen、Maurice Weiler、Berkay Kicanaoglu以及Max Welling 等人联合开发的“规范等变卷积神经网络”(gauge-equivariant convolutional neural networks,或者规范CNN), 不但可以检测2D像素数组里面的模式,而且还可以检测球体和不对称曲面立体的模式。Welling说:“对于曲面深度学习问题来说,这个框架是个相当可以确定的答案。”
在学习模拟的(正好自然映射到球体上)全球气候数据的模式中,规范CNN的表现已经比之前的框架要好很多了。该算法对于改善用3维观察物体的无人机和无人车视觉有帮助作用,对检测从心脏、大脑或其他器官的不规则曲面收集到的数据中隐藏的模式也许也有促进作用。
Taco Cohen,高通及阿姆斯特丹大学机器学习研究员,规范等变卷积神经网络首席架构师
为了让深度学习突破二维空间,研究人员的解决方案跟物理有着密切联系。就像爱因斯坦的广义相对论与粒子物理学的标准模型那样,描述世界的物理理论表现出一种所谓的“规范等变”的属性。这在某种程度上预示着在这样一个世界上的数量及其关系并不依赖于任意参照系(或“规范”);无论观察者是移动还是静止,也不管标尺上的数字离得有多远,它们都是一致的。用不同量表进行的测量必须以一种保持底层事物间关系不变的方式来进行转换。
比方说,假设先以码为单位测一个足球场的长度,然后以米为单位再测一次。测出来的数字会变,但那是可预测的。同样地,两位摄影师从两个不同的位置拍摄物体的照片会产生不同的图像,但是这些图像之间可以彼此关联。不管视角或测量单位如何,规范等变均可确保物理学家的现实模型保持一致。而规范CNN即是对数据做出了相同的假设。
纽约大学的物理学家凯尔·克兰默(Kyle Cranmer)说:“ (来自物理学的)同样的想法是没有特殊的方向,他们希望将其引入神经网络。”他将机器学习应用于粒子物理学数据。“他们想出了办法。”
摆脱二维
2015年,伦敦帝国理工学院计算机科学家Michael Bronstein创造了“几何深度学习”这个词来描述为摆脱二维并设计可学习非平面数据模式神经网络的新努力。这个术语及相关研究工作很快就火起来了。
Bronstein及其合作者知道,要想突破欧几里德平面,他们需要重新构思一种基本的计算方法,这方法先得让神经网络识别2D图像特别高效。这个方法叫做“卷积”,它然神经网络的一层对输入数据的一小块执行数学运算,然后把结果传递给网络的下一层。
Bronstein解释说:“大体上,你可以把卷积看作是一个滑动窗口。”卷积神经网络就像滤波器一样将很多这样的“窗口”滑动过数据,从而检测数据是不是真的存在某种模式。对于猫照片,经过训练的CNN也许会利用滤波器来检测原始输入像素里面的低级特征,比方说边缘。而这些特征又会被传递到网络的其他层,去执行其他卷积并提取更高层特征,比方说眼睛、尾巴或三角形的耳朵。接受过识别猫训练的CNN最终会用这些分层卷积的结果为整幅图像分配标签(比方说“猫”或“不是猫”)。
这张信息图显示了神经网络对一艘船的图像进行扫描的过程
但是这种方法仅适用于平面。Welling说:“当你要分析的表面变得弯曲时,基本上就会遇到麻烦。”
在曲面(几何上称为流形)上进行卷积计算,就像在地球上拿着一小块半透明的方格纸,然后试图准确地画出格陵兰岛的海岸线一样。你是没办法在不让纸起皱的情况下把一张方形的纸盖上格陵兰岛,而这在某种程度上预示着当你再把纸铺平时,你所描绘的海岸线会变形。但是,用墨卡托投影(把地球仪投影在圆柱筒上,再把圆柱筒上的地图摊开成为平面地图,并将之用一系列平行的经纬线进行切分)一样也会产生变形。或者,你可以干脆把坐标纸放到一张平面的世界地图而不是地球上,然后再连这些变形也一并复制即可,比方说,地图的整个上边缘其实仅代表地球的一个点(北极)。而且,如果流形不是像球形那样整齐的球体的话,而是类似瓶子的3D形状或折叠蛋白质之类更复杂或不规则物体的话,则在它上面进行卷积计算会变得更困难。
2015年,Bronstein和他的合作者找到了解决非欧氏流形卷积问题的一种解决方案,方法是把滑动窗口重新想象成更像是圆形蜘蛛网而不是坐标纸的形状,这样把它按到地球(或任何弯曲表面)上就不会到导致其弯曲、拉伸或撕裂了。
用这种方式改变滑动滤波器的属性能让CNN更好地“理解”某些几何关系。比方说,这种神经网络可以自动识别出弯曲成两个不同姿势的3D形状(比方说,一个站立的人像和抬起一条腿的人像)是同一对象的实例,而不是两个完全不同的对象。这种改变也使得神经网络的学习效率大幅度的提升。Bronstein说,标准的CNN“要使用数百万个形状的样本,而且需要训练数周。我们只用了不同的姿势的大概100种形状,训练只用了约半小时。”
同时, Taco Cohen和他在阿姆斯特丹的同事开始从相反的方向去解决同一问题。2015年,当时还是研究生的Cohen并没有研究如何让深度学习摆脱平面。相反,他对自认为很实用的一个工程问题很感兴趣:那就是数据效能,或者说,通常训练神经网络需要数千或数百万个样本,怎么才能把这个数量减少?Cohen说:“深度学习方法可以说是非常迟钝的学习者。” 如果训练CNN是用来识别猫(互联网最不缺猫的图像)的话,几乎是不成问题的。但是,如果你想让网络检测出更重要的内容,比方说肺组织图像里面的癌性结节的话,想要找到足够的训练数据(需要在医学上进行准确适当的标记并且没有隐私问题)并非易事。训练网络所需的样本越少越好。
Cohen知道,提高神经网络数据效率的方法之一是预先对数据进行特定的假设——比方说,一张图像内的肺肿瘤经过旋转或者镜像后仍然是肺肿瘤。通常,卷积网络必须用同一模式在不同方向上的许多样本进行训练来从头学习才能掌握这一信息。2016年,Cohen和Welling合作撰写了一篇论文,文章定义了如何将其中的一些假设以几何对称方式编码进神经网络。这种方法效果很好,好到2018年时,Cohen和共同作者Marysia Winkels甚至把它进一步推广到CT扫描识别肺癌。成果是可喜的:他们的神经网络只用了其他神经网络所用数据的十分之一即可识别出这种疾病的视觉证据。
阿姆斯特丹的研究人员不断地进行归纳。他们及时这么找到规范等变的。
等变的延伸
物理和机器学习有着基本的相似之处。就像Cohen所说那样:“两个领域都牵涉到做出观测,然后建立模型来预测未来的观测。”他指出,关键的一点是,这两个领域寻求的都不是对事物个体建模(氢原子一种描述,倒过来的氢原子是另一种描述是不好的),而是对事物的一般类别建模。“当然,物理学在这方面已经非常成功。”
等变(或物理学家更喜欢的“协变”)是自爱因斯坦以来的物理学家归纳模型所依赖的假设。阿姆斯特丹大学理论物理学家Miranda Cheng(跟Cohen等人合作写过一篇探讨物理学与规范CNN关系的论文)解释说:“这只是意味着,如果你正确地描述了某种物理现象的话,那它应该跟你用什么样的‘标尺’无关,或说得更笼统一点,跟你是怎样的观察者无关。”就像爱因斯坦本人在1916年所说那样:“自然的一般定律应由对所有坐标系都适用的方程式表示。”
阿姆斯特丹大学物理学家Miranda Cheng
就利用了该原理的一个简单的例子,“平移等变”,卷积网络一举成为深度学习最成功的方法之一。检测到图像中某个特征(比方说垂直边缘)的窗口滤波器会在像素平面滑动(或“平移”) ),并对所有这些垂直边缘的位置进行编码;然后,再建立起标记这些位置的“特征图谱”,并将其传递给网络的下一层。因为有了平移等变,特征图谱的创建成为可能:神经网络“假定”同一特征可以出现在2D平面的任何位置,并且不管垂直边缘出现在右上角还是左下角,自己都能够将垂直边缘识别为垂直边缘。
Weiler 说:“等变神经网络的关键是将这些明显的对称放置进网络结构里面,这有点类似一顿免费的午餐。”
到了2018年,Weiler、Cohen及其博士导师Max Welling已经扩大了这种“免费午餐”的范围,将其他等变也纳入进来。他们的“群等变”(group-equivariant) CNN无需用旋转或镜像方向样本训练即可检测平面图像上这些特征的存在;球面CNN能够准确的通过球体表面上的数据创建特征图谱而不需要将其扭曲为平面投影。
这些方法仍然不够通用,没法处理崎岖不平、不规则结构流形(从土豆到蛋白质,再到人体,乃至于时空弯曲,几乎涵括了所有物体的几何形状)的数据。对于神经网络,这些类型的流形“全局”对称性来让神经网络做出等变假设:因为它们上面的每个位置都是不同的。
用两个水平圆柱体展示最曲面上的卷积计算
其挑战在于,视选取的路径不同,平面滤波器在某表面的滑动会改变该过滤器的方向。不妨想象一个用于检测简单模式(左侧为深色斑点,右侧为浅色斑点)的滤波器。在平面网格上上下左右滑动这个滤波器,它都将始终保持正面朝上。但是,哪怕是在球体的表面上,这一点也会改变。如果将过滤器围绕球面的赤道移动180度,则滤波器的方向将保持不变:左侧为深色斑点,右侧为浅色斑点。但是,如果越过球体北极将其滑动到同一点的话,则过滤器将是是上下颠倒的——右侧为深色斑点,左侧为浅色斑点。滤波器将检测不出数据存在相同的模式或对相同的特征图谱进行编码。在更复杂的流形上移动滤波器的话,最终会指向许多不一致的方向。
幸运的是,自爱因斯坦以来的物理学家已经处理过同样的问题,并找到了解决方案:规范等变。
Welling解释说,关键是不要去管跟踪滤波器沿不同路径移动时其方向会如何变化。相反,你可以只选择一个方向(或规范),然后定义一种将所有其他方向转换为该方向的一致方法。
其要点是,尽管在初始方向上能够使用任意量规,但将其他量规转换为该参考系时必须保留基本模式——就像将光速从米秒转换为英里每小时必须保留基础物理量一样。有了这个规范等变方法,Welling说,“实际数字会变,但却是以一种完全可预测的方式发生改变的。”
Cohen、Weiler和Welling 在2019年将规范等变(终极版的“免费午餐”)写进了他们的卷积神经网络里面。他们给神经网络通过卷积能“看到”什么数据施加了数学约束来实现这一目标;只有规范等变模式才能通过网络的各个层。从欧几里德平面到任意弯曲的物体,包括类似克莱因瓶或四维时空的奇异流形等,Welling说:“基本上,你可以赋予任意表面以规范等变,这对在那种表面上进行深度学习非常有用。”
工作原理
规范等变CNN太过普遍了,以至于可自动包含之前的几何深度学习方法内置的假设——比如球体的旋转同变与平移滤波器等。即便是Michael Bronstein的早期方法,那种可以让神经网络识别弯曲成不同姿势的单一3D形状的方法,也符合规范等变。Bronstein说说:“规范等变是一个非常广泛的框架。我们在2015年所做的事情是它的一个特例。”
理论上规范CNN可以适用于任意维度的任何弯曲表面,Cohen及其合作者已经用全球气候数据(该数据必定具备3D球形结构)对其进行过测试。他们用自己的规范等变框架搭建了一个CNN,用来训练从气候模拟数据中检测极端天气现象模式,如热带气旋。2017年,政府和学术研究人员用标准卷积网络曾检测出数据中的旋风,准确度为74%; 去年,规范CNN探测飓风的准确率已达到97.9%。(这个成绩还超过了2018年专门为球体设计的不太通用的几何深度学习方法,后者的准确度为94%。)
劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的气候科学家Mayur Mudigonda也应用过深度学习,他表明了自己会继续关注规范CNN。他说:“这方面的人类视觉智能,即无论在什么方向都可以准确识别出模式来这一点,我们想把这种能力转化到气候社区里面。” 芯片巨头高通最近收购了Cohen和Welling创建的一家初创公司,并将两人招致麾下,把他们的早期工作纳入到规范等变神经网络里面。现在,高通正计划将规范CNN理论应用到改进型计算机视觉应用的开发上,比方说可以同时“看” 360度的无人机。(就像全球气候数据一样,可以对世界的鱼眼视图自然地映射到球形表面上。)
同时,规范CNN在像Cranmer这样的物理学家当中也慢慢变得受欢迎,他们计划用来处理亚原子粒子相互作用的模拟数据。Cranmer说:“我们正在分析与强[核]力有关的数据,尝试去聊解质子内部。” 他说,这种数据是四维的,“因此,我们给具备这种规范等变神经网络提供了一个完美用例。”
前物理学家,现在正在研究等变神经网络的Risi Kondor说,规范CNN的潜在科学应用可能比其在AI当中的应用还要重要。
他说:“ 如果你做的是识别YouTube上的猫,但发现了自己不太擅长识别上下颠倒的猫,你的感觉也许不太好,但可能还可以忍受。” 但是对于物理学家来说,至关重要的是要确保神经网络不会因为方向原因把力场或粒子轨迹识别错。Kondor说:“这不单单是不方便的问题,关键是要尊重基本的对称性。”
尽管物理学家的数学启发了规范CNN的诞生,且物理学家可能会为规范CNN找到大量用武之地,但Cohen指出,这些神经网络本身并不能发现任何新的物理规律。他说:“我们现在能够设计出可处理非常奇特数据的网络,但是你必须事先知道这种数据的结构。” 换句话说,物理学家之所以可以用规范CNN,是因为爱因斯坦已经证明了时空可以用四维曲面流形表示。Cohen的神经网络自己是“看”不出这种结构的。他说:“我们现在不学对称性。”不过他希望将来能学会这一本领。
这种跨学科的关联一度是科恩的直觉,现在又被以严格的数学方法证明,Cohen对此感到非常高兴。他说:“我一直都觉得机器学习和物理学正在做着非常相似的事情。我认为这真是非常的奇妙:我们一开始只是琢磨一个工程问题,然后随着我们慢慢改进自己的系统,我们逐渐发现了慢慢的变多的关联。”
译者:boxi。