最“智障”的深度神经网络,可能是计算的未来?

最近,一些物理学家们正忙着用金属板振动、电压和激光构建深度神经网络。他们相信计算的未来不在更大、更快的电脑,而在于对宇宙复杂物理行为的挖掘和利用。

还记得科幻小说《银河系漫游指南》系列中生命、宇宙及一切的终极答案“42”吗?为了解释这个让人摸不着头脑的答案,宇宙第二强大的超级计算机“深思”(DEEP THOUGHT) 设计了一台宇宙第一强大的电脑,所有有机生命都是它运行母体的一部分,而它运行了1,000万年,只为找出生命、宇宙及一切的终极问题,这台电脑就是地球。

这种“世界即计算”的奇思妙想,可能不只是道格拉斯・亚当斯 (DOUGLAS ADAMS)一时的灵感迸发,如今已经走进了现实。不过这个现实,目前怕是还有点儿“骨感”。

在一个隔音的箱子里,装着世界上最糟糕的神经网络之一。在看到一张数字“6”的手写图像后,它停顿了片刻,然后得出了识别结果:0。康奈尔大学的物理学家和工程师,也是该神经网络开发的负责人PETER MCMAHON 局促不安地笑了笑,几乎是不好意思地辩称这个手写数字太过潦草了,而他实验室的访问博士后,来自 NTT RESEARCH 的LOGAN WRIGHT 则拍着胸脯保证,它通常是能够得出正确答案的。不过,就连他也承认,错误的出现很常见,“它就是这么糟糕”。

那它的过人之处究竟在哪里呢?研究人员把箱子打开,里面露出的不是计算机芯片,却是一个麦克风对着一张固定在扬声器上的钛金属板。其他的神经网络都在“0”和“1”的数字世界中运行,而这个设备依赖的是声音。当 WRIGHT 给它展示一个包含数字的新图像时,图片的像素被转换成音频从扬声器放出,导致金属板发生振动,于是实验室里就充满了微弱的震颤声。这个神经网络不是什么在硅晶上运行的软件,而是使用金属混响来进行“阅读”的,所以它能够时不时地成功完成识别本身就很不可思议了,以至于设计它的研究人员都不敢相信这是真的。

“谁能想到呢,金属板的振动竟然能和一个手写数字的分类识别扯上关系。”MCMAHON 如此说道。

虽说这个设备是开创性的,但结果的差强人意有目共睹,那科学家们为什么还要做这玩意儿呢?这要从现有的机器学习和数字深度神经网络说起。

神经网络最早是受到了大脑结构的启发,是一种通过不断练习来实现学习的计算机程序,也是现在最流行的人工学习模型。它可以被看做是一个网格,由一层层的、存储着数值的“神经元”节点和连接它们的“突触”权重组成,其“思考”的过程就是输入的信息经过值和权重的相乘,逐层推进,并最终在最后一层得到结果;而“学习”的过程就需要依靠一种叫做反向传播算法的东西,能够从最后一层的正确答案开始逐层回溯整个网络,并计算如何调整突触权重才能得到这一正确答案。这一过程就是深度学习的核心。

深度神经网络这几年发展迅猛,也广泛应用于图像识别、自动驾驶、自然语言识别等等,而上述的原理决定了它“越大越好”的特性,算力越强,人工神经元越多,层数越“深”,则其得到的结果就越准确,功能就越强大。不过,跟它的“老祖宗”大脑相比,人工神经网络数字化版本的学习效率可太低了。每天摄入不到2,000卡路里的热量,人类儿童在几年内就能学会说话、阅读、玩游戏等等,而在如此有限的能量供给下,即便是突破性的、能够实现流利交谈的神经网络 GPT-3,也需要一千年才刚能学会聊天。

对 MCMAHON 这样的物理学家来说,大型数字深度神经网络的问题就在于太执着于数学运算了。当今最大的庞然大物需要记录和操纵超过五千亿个数字,这听起来已经很了不起了吧?然而,仅仅一个房间里可能就有数万亿个空气分子在四处弹跳,要让计算机去无损模拟它们的碰撞是绝对不可能的,但空气本身可以毫不费力地决定它的实时表现。可以说,相较于宇宙时时刻刻都在完成的任务,计算机微不足道的簿记能力原始得仿佛一个算盘。

于是,他们决定另辟蹊径,用一种非正统的方法,让宇宙替我们处理计算的问题。“很多物理系统在进行某些计算时天然比计算机更快、更有效”,MCMAHON 说道。什么意思呢?打个比方,工程师设计了一架飞机需要测试方案,“正统”的做法可能是将飞机的图纸数字化建模,然后丢到超级计算机中花好几个小时去模拟空气在机翼周围的流动;而如果用所谓的物理系统,就是把飞机直接放到一个风洞里,看它是否飞得起来。从计算的角度来看,风洞能够即时“计算”机翼与空气的相互作用。

与只支持空气动力学的风洞不同,这里的挑战在于构建一种物理的系统,并确保该系统可以自然而然地实现人工智能所必需的两个过程――比如对图像进行分类的“思考”过程,以及正确分类这些图像所需的“学习”过程。同时掌握这两项任务的物理系统就可以充分利用宇宙的数学运算能力,而无需实际进行数学运算。于是,也就有了上面的钛金属板神经网络。

“我们不仅仅是在重塑硬件”,瑞士苏黎世联邦理工学院的数学家 BENJAMIN SCELLIER 说,“更是在重塑整个计算的范式。”

2017年,数个研究团队提出,深度神经网络的行为近似于一个平滑的数学函数,而深度越大的神经网络效果越好的原因在于其对应的函数锯齿更小,更接近理想曲线。不过,既然是“0”和“1”的数字化方法,那锯齿就是与生俱来的,于是 MCMAHON 就开始思考另一种可能性,如果使用一个平滑变化的物理系统来代替数字神经网络,那是不是可以规避掉这种固有的锯齿呢?

这里的诀窍是找到一种方法来驯化一个复杂的系统,也即通过训练来调整它的行为。MCMAHON 和他的同事们选择了钛金属板,原因在于它的多种振动模式会以卷积的方式混合输入的声音。为了让钛金属板像神经网络一样工作,他们输入了一种编码了图像(比如手写的数字“6”)的声音,以及另一种代表突触权重的声音;声波的峰和谷需要精准地在恰当的时刻撞上钛金属板,以便这一设备将声音混合并给出答案,比方说得到的新声音在第六毫秒时音量达到最大,就代表着“6”这一结果。

该团队也在一个光学系统中实施了他们的方案,其中输入图像和权重被编码成两道光束,并由一块水晶混合到一起,此外他们还尝试了一个具备类似的输入信息混合功能的电子电路。原则上,任何具有拜占庭行为的系统都可以实现这一点,尽管研究人员认为光学系统的前景最为光明,原因不仅仅在于水晶融合光线的速度极快,更重要的是光可以容纳大量的数据。

通过训练,钛金属板学会了分类识别手写数字,准确率为87%,而电路和激光系统则分别达到了93%和97%的准确率。这一结果表明,“不是只有常规的神经网络才可以通过反向传播进行训练”,法国国家科学研究中心 (CNRS) 的物理学家 JULIE GROLLIER 感叹道,“这太美妙了。”

康奈尔大学的团队在一月份在《自然》杂志上发表的论文中提到了这台设备非常原始的阅读能力,这也给了 MCMAHON 以及其他研究者以希望,相信它在(遥远的)未来的迭代版本能够给计算带来根本上的变革。毕竟,这一设备效率虽低,却破天荒地证明了思考这个过程并不一定需要大脑或是计算机芯片来完成,“任何物理系统都可以是一个神经网络”,MCMAHON 不无自豪地说道。

然而,这些系统共同的致命弱点是训练它们需要回到数字领域。反向传播算法涉及反向运行神经网络,但金属板和水晶显然不可能把声音和光再拆分回去。因此,研究团队还是为每个物理系统构建了数字模型,通过在电脑使用反向传播算法来计算如何调整权重,从而让这些物理神经网络“学习”给出更准确的答案。

德国马克斯・普朗克光科学研究所的物理学家 FLORIAN MARQUARDT 对此并不满意。他提出,其中一种解决办法就是造一台反向运行的机器,于是在去年与人合作一同提出了一种反向传播算法的物理模拟,可以在这样的系统上运行。

为了展示它的工作原理,他们用数字模拟了一个类似 MCMAHON 的激光装置,同样将编码了可调节权重的光波和另一个编码了图像的输入光波混合到一起。他们使用别的光学器件来分解混合波,从而逆转这一过程,并不断调整输出值使其越来越接近正确答案。“神奇的是”,MARQUARDT 说,“当你再次尝试相同的输入值时,(输出值)就会倾向于更接近你想要的。” 接下来,他们将和实验科学家合作去建立这样一个系统。

不过,大脑学习的过程并不依赖于所谓的反向传播,而是单向的。一些科学家就对这种“不自然”的做法不以为然,决定完全摒弃反向传播这个思路。

2017 年,瑞士苏黎世联邦理工学院的数学家 BENJAMIN SCELLIER 和蒙特利尔大学的计算机科学家 YOSHUA BENGIO 开发了一种被称为平衡传播算法的单向学习方法。要理解它的工作原理,可以想象一个由箭头组成的网络,每一个箭头都和神经元一样,其指向则代表着“0”或“1”,由充当突触权重的弹簧连接在一起形成网格。弹簧越松,相互连接的箭头就越不容易对齐。

首先,你可以通过扭转最左边一排中的箭头以反映输入的手写数字图片的像素,然后将它们固定在这个位置,等待这一扰动在弹簧网格上“呈涟漪状”扩散,从而翻转其他箭头。网格静止后,最右边一排的箭头就会给出答案。

最重要的是,这个系统不需要通过逆转这个过程来训练。这里需要做的是,将另一组显示正确答案的箭头与它的底部连接起来,下面的箭头就会翻转上面那组箭头,使得整个网格达到一个新的平衡;最后对箭头的新方向与旧方向进行比较,并据此对每个弹簧做调整,进行相应的拉紧或放松。经过大量试错,弹簧网格中的张力变得更加“智能”,SCELLIER 和 BENGIO 也已证明它的作用就相当于反向传播算法。

“人们一直坚信物理神经网络和反向传播之间不可能存在联系”,JULIE GROLLIER 评价道,“最近这一情况发生了变化,这非常振奋人心。”

不过,虽然这样的物理系统天然可以计算出应该如何调整这些“弹簧”,却始终无法实现对突触权重的自动更新,换言之,它无法完成“自主学习”。所幸,有个团队凑齐了“拼图”的所有部分。

宾夕法尼亚大学的物理学家 SAM DILLAVOU 的团队同样从大脑汲取了灵感。作为一种真正的“智慧”物质,大脑是一个相对统一的系统,可以在没有任何单一结构“独裁”的情况下进行学习,“每个神经元都各行其是”,也就是所谓的去中心化。他们构建了一个电子电路,可以用物理完成所有的关键步骤,包括“思考”、“学习”和更新权重,“我们已经在一个小型系统中实现了闭环”,DILLAVOU 说道。

SAM DILLAVOU 在摆弄他的“自学习”电路

在这个“自学习”电路中,可变电阻器充当突触权重,神经元则是电阻之间测量到的电压。为了对给定的输入值进行分类,它会先将数据转换为施加到几个节点的电压,然后电流流过电路,在稳定下来的过程中自动寻找耗散能量最少的路径并改变各节点处的电压。最终指定输出节点的电压就是电路得出的答案。

他们最重要的创新就在挑战重重的“学习”这一步。为此他们设计了一种类似于平衡传播的方案,并称其为耦合学习。当一个电路接收数据并“思考”得出一个猜测时,另一个完全相同的电路则直接从正确答案开始,并将其纳入它的行为当中。最后,连接每对电阻的电子设备会自动比较它们的值,对它们进行调整,从而达到一个“更智能”的配置。

该团队在去年夏天的一篇预印本中描述了这个非常原始的电路,宣称它学会了辨别三种花,准确率达到95%。如今,他们在开发一种速度更快、功能更强大的装置。

诚然,即便经过好几轮升级,这样的系统也不可能击败当今最先进的硅晶芯片。不过,搭建这些系统的物理学家们相信,虽然数字神经网络在今天看来无比强大,但最终会在它们的(物理)模拟表亲面前显得迟缓而先天不足。数字神经网络的扩展始终有限,最后总会因为计算量过大而难有寸进,而相比而言更大的物理神经网络则什么都不用做,只需要存在就可以了。