神经网络子网络压缩10倍精确度不变,MIT科学家提出彩票假设

日期:2019-11-11编辑作者:科技资讯

图片 1

我们现在所使用的神经网络模型,可能有 80% - 90% 的体积是多余的,这浪费了巨大的处理能力。

铜灵 发自 凹非寺

神经网络技术起源于上世纪五、六十年代,当时叫感知机,拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。

新智元报道

近日,麻省理工学院的计算机科学与人工智能实验室(MIT CSAIL)公布了一项新的研究成果,用富有创意的“彩票机制”修剪了传统神经网络模型,选择性地剔除了对结果意义不大的连接,使其变为更小的子神经网络。

量子位 出品 | 公众号 QbitAI

尽管人工智能取得了很大的进步,但现在大多数基于人工智能的产品仍然依赖于“深度神经网络”。这种网络通常非常大,而且训练成本高得令人望而却步。

来源:MIT

最终,在保证预测准确率前提下,他们将实验中的子网络模型的体积减少了 80% - 90%,进而降低了对训练数据量和硬件的需求,而且学习速度还有所提升。

在大洋彼岸的新奥尔良,正在举行一年一度的机器学习顶会:ICLR 2019。

麻省理工学院的研究人员希望改变这一现状。在今天发表的一篇论文中,研究人员揭示了神经网络中包含的“子网络”,比之前的网络小10倍,而且可以更便宜、更快地进行训练。

编辑:元子

研究团队将这一方法称为“彩票假设(Lottery Ticket Hypothesis)”,成果以论文形式发表在最近召开的 ICLR 2019 大会上,并且被评选为两篇最佳论文之一。《麻省理工科技评论》报道了这一成果,预测这种构建微小神经网络的新方法,可以在手机上创建强大的人工智能。

今年,ICLR19共收到了1578篇投稿,较去年增长60%。在这1600篇论文中,MIT的“彩票假设”理论从中脱颖而出,其论文斩获今年的最佳论文。

为了训练大多数神经网络,工程师给它们提供大量的数据集,但这可能需要几天的时间和昂贵的GPUs。

MIT CSAIL近期发表文章《彩票假设:寻找稀疏可训练的神经网络》认为神经网络就像中彩票并不是每一张都有用,但应设法找到最能中奖的那个,因此可通过消除神经网络结构件不必要的连接适应低功率设备,在一系列条件下不断重复该过程,神经网络可缩小10%到20%,但并不影响准确率,甚至比原始网络跟快。

图片 2

这是项什么研究?

图片 3

根据齐鲁晚报报道,最近威海一彩民获得了1219万大奖,可以说是非常幸运了,看的一众神经网络“炼丹师”们羡慕不已。

图 | 发表于 ICLR 2019 大会上的论文

研究人员证明,将神经网络包含的子网络缩小至原来的十分之一,依旧不会影响训练精度,甚至于,压缩后的模型可能比原神经网络更快!

来自麻省理工学院计算机科学和人工智能实验室的研究人员发现,在这些训练有素的网络中,有更小的子网络,可以做出同样准确的预测。

训练深度神经网络的感觉就像买彩票

将训练神经网络看作是抽奖

来看看今年的研究新风向。

CSAIL所谓的“彩票假说”就是基于这样一种观点,即训练大多数神经网络就像买所有的彩票,以确保中奖。相比之下,训练子网就像只买有奖的那张彩票一样。

HackerNews网友opwieurposiu就吐槽,做DNN其实根本和买彩票没什么区别:先是收集训练数据,然后写一个python脚本,支付大约1美元的GPU时间,跑一下。所不同的是,你盯着的不是轮盘的转针,而是损失函数图。

如今,深度学习技术已经成为了计算机科学领域的最热门研究方向,从应用自然语言处理的语音识别,到应用计算机视觉的自动驾驶,都十分依赖于构建神经网络。而为了达到最佳学习效果,构建神经网络通常需要非常庞大的数据集,用来训练和测试模型。很多研究团队都在想办法优化这一过程,在不牺牲准确度的前提下,让神经网络和模型变得更小巧轻便。

图片 4

问题在于,研究人员还没有想出如何在不构建完整神经网络的情况下找到这些子网,然后修剪掉不必要的位。研究人员目前还没有找到这些子网络的方法。

95%的时间都是废的,但是每隔一段时间你就会得到很大的回报。中奖的时候,你可能觉得自己真是个天才!但复盘的时候又发现,你根本不知道为什么A方式有效而B就不行。这种感觉,跟压彩票非常相似。

传统神经网络由很多层和神经元构成,神经元之间的连接可以用权重来衡量,通过调整某些权重的参数,我们就可以改变相应的连接在整个网络中的作用。权重一般都是随机初始化的,随着模型经过大量训练,神经网络会慢慢“学会”哪些神经元和连接更重要,继而改变对应的权重参数,输出准确率更高的结果。

彩票假设

如果他们能找到一种方法跳过这一步,直接进入子网络,那么这一过程可以节省数小时的工作。并使训练神经网络不仅仅对大公司开发而且对单个程序员开放。

1美元的神经网络很小了。为了更好地学习,神经网络就必须非常大,需要海量数据集,整个训练过程可能要持续好多天。投入100美元、1000美元、10000美元……的时候,你可能感受到的不仅仅是经费在燃烧了。

图片 5

这篇获奖论文名为The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,提出了一种叫作“彩票假设”(lottery ticket hypothesis)的缩小方法。

但是,如何有效地找到子网络,并明确为什么有些子网在训练上比其他子网表现地更好,可能会让研究人员忙上几年。

可是,如果说,实际上神经网络不一定要那么大呢?

图 | 神经网络剪枝示意图(来源:Dr. Lance Eliot, the AI Trends Insider)

此前,神经网络的剪枝技术能将网络的参数减少到90%,但此方法的弊端也很明显,即剪枝架构一开始的训练就相当困难。

不修剪了,把没用的部分直接砍掉!

在 MIT 研究人员看来,这就像是一个抽奖过程:最开始我们手里有一大堆数字,但只有少部分数字最富价值,所以我们可以在训练过程中将它们筛选出来,用这些数字组合成一张“中奖彩票”,也就是实现了准确预测的目的。

MIT计算机科学与人工智能实验室的研究人员表示,与其在后期修修剪剪,何必不在一开始就创建一个尺寸合适的网络呢?

MIT CSAIL的两位研究人员Jonathan Frankle和Michael Carbin发表过一篇论文《彩票假设:寻找稀疏的、可训练的神经网络》刚刚被评为ICLR最佳论文。

如果我们可以在最开始就知道哪些数字能够或者更容易中奖,那么就可以*直接**去除**剩下**那些价值不大的**数字*,从而在保证准确率的情况下,缩小神经网络的体积,甚至是提高训练效率。

他们将传统的深度学习方法比作乐透,训练大型神经网络就像在通过盲目随机选号中奖,而这种新的方法不采用这种大海捞针的方式,想在一开始就拿到最后中奖的号码。

论文指出,神经网络剪枝技术可以在不影响精度的前提下,将训练网络的参数数量减少90%以上,降低存储需求并提高推理的计算性能。然而,当前的经验是,剪枝产生的稀疏架构从一开始就很难训,然而同时也能提高了效率。

研究人员将这一思路命名为“彩票假设”。他们认为,一个随机初始化的密集神经网络包含一个子网络,在独立初始化并训练相同迭代次数后,它们的预测准确率能够媲美原始的神经网络。

于是乎,“彩票假设”问世。

Frankle和Carbin发现,一个标准的修剪技巧可以自然的显露出一个子网络,初始化该网络就能提高训练效率。

图 |“彩票假设”定义

他们发现,传统的剪枝技术会在神经网络子网络处动刀,让初始化后的子网络能够进行有效训练。

因此他们提出了 “彩票假设”(lottery ticket hypothesis):

“稀疏剪枝”法修剪出微小神经网络

密集、随机初始化的前馈神经网络包含一些子网络,也就是中奖号码,当对其单独进行训练时,这些子网络能够在相似迭代次数中达到与原始网络比肩的准确率。

任何密集、随机初始化的前馈网络,都包含一个子网络,以便在隔离训练时可以在最多相同数量的训练迭代中,匹配原始网络的准确性。

值得注意的是,目前已存在多种神经网络剪枝技术,AI 大牛 Yann LeCun 就曾提出过。在最理想的情况下,可以将网络体积缩小 90%。但修剪之后的网络普遍难以重新训练,而且重新训练还会导致准确率降低等问题。

问题来了,如何找到这个中奖号码呢?总共分为四步:

然而,在成功的找到这个子网络之前,必须经过多次训练和“修剪”整个网络。这就好像你去买了一大包彩票,然后从里面找出中奖的那个。神经网络的好处是,所有的彩票都在你的手中,你总能找出来中奖的那个。

相比之下,MIT 团队想要找到一种,可以在最开始就训练修剪过的小型神经网络的方法。

随机初始化一个神经网络f

如果能确切的定位到原始网络中哪个子网络跟最终预测相关,那么也就用不着多次训练和“修建”,直接砍掉无关的部分即可。这样又进一步的降低了工作量,提高了效率。这就意味着,要通过一种技巧,使得每次买彩票必中!

为了验证“彩票假设”,研究人员先进行了复杂的数学推导,从理论上证明了实现的可行性。然后随机初始化了一个神经网络,并且迭代训练 N 次,获得了第 N 次迭代之后的所有参数,再按照特定的比例和方法剪掉部分参数,比如剔除数量级最小的权重,创造出一个蒙版。最后将所有剩余参数还原到初始值,套上刚刚得到的参数蒙版,由此创建了一套“中奖彩票”,再进行重新初始化和训练。

训练这个网络j次,得到网格参数θj

彩票假设也可能迁移学习产生影响,在这种情况下,为图像识别等任务训练的网络可以帮助完成不同的任务。

图 | 如何找到“中奖彩票”的官方解释

修剪θj中p%的参数,创建mask m

“打了折”的深度学习

研究团队使用了全连接网络和卷积神经网络来测试“彩票假设”的效果,分别建立在 MNIST 和 CIFAR10 数据集之上——两者都是深度学习领域知名数据集。

用θ重新设置剩余网络,创建中奖号码f

感谢大家对神经网络的过度热捧,使得越来越多的人感叹于神经网络的神奇效果,但很少有人理解训练一个神经网络有多难。一来成本高昂,二来耗时漫长。所以研究人员必须做出许多让步,在模型的大小、训练耗时和最终表现等多个方面进行权衡。

针对这两种网络,他们在多种条件下重复进行了数万次实验,尝试分析和组合很多不同的方法,从而确定在不牺牲学习能力和准确度的前提下,可以最多删除多少个参数。

在MNIST和CIFAR10数据集上,“中奖彩票”的大小是很多全连接和卷积前馈架构的10%~20%。

包括今天两位主角提出的“彩票假设”的验证过程。他们首先采用一种通用的方法,用最低的“权重”“修剪”连接来消除受过训练的网络的不必要连接,使其适用于智能手机等低功耗设备。

结果显示,“稀疏剪枝(Sparse Pruning)”方法是找到“中奖彩票”的最有效手段。由此生成的子网络大小只有原始网络前馈架构大小的 10% - 20%,而且在某些情况下,例如使用早停,Dropout 或随机重初始化等方法,还可以使学习速度加快,甚至是获得超过原始网络的准确度。

图片 6

“彩票假设”的关键创新,是发现经过网络训练之后,修剪连接可能根本就没有必要。为了测试这个假设,他们尝试再次训练完全相同的网络,但没有修剪连接。

研究人员认为,这样的成果还只是起步,如果想找到合适的子网络,必须经过多次迭代、训练和修剪,对于算力有较高要求,而且存在一定的局限性,因为他们只找到了“稀疏剪枝”这一种寻求“彩票”的方法,还只考虑了数据集相对较小的视觉分类任务。

上图为当迭代剪枝和再次随机初始化时,Conv-2/4/6 架构的早停迭代、测试和训练准确率

重要的是,他们将每个连接“重置”到训练开始时分配的权重。这些初始权重对于帮助中奖来说至关重要,没有它们,被修剪的网络将无法学习。通过修剪越来越多的连接,最终确定了哪些是可以删掉而不影响模型预测能力。

不过“彩票假设”的新思路可以激发机器学习领域的其它团队,尝试更多类似的网络压缩和优化研究。研究团队下一步将围绕更多的剪枝方法展开研究,分析为什么迭代剪枝(Iterative Pruning)在更深的网络中无法找到“中奖彩票”,同时对参数初始化机制进行更透彻的研究。

并且,比原始网络的学习速度更快:甚至准确度更高:

为了验证这一假设,他们在各种条件下在许多不同的网络上重复了这个过程数万次。实验结果显示MNIST和CIFAR10的“中奖彩票”的规模,始终要小于几个全连接架构和卷积前馈架构的10%-20%。这样的话,不仅深度网络在体积上打了折扣,成本、耗时都大打折扣。

他们相信,如果投入更多的努力,能够找到最有效的剪枝手段,或许有望加速很多深度学习模型的训练过程,节省可观的开支和工作量,甚至是创造更有价值的新模型。

论文地址:

下一步,该团队计划探索为什么某些子网特别擅长学习,以及有效找出这些子网的方法。

-End-

Google已经用Python实现了彩票假设算法,并在Github上开源:

参考:

作者团队

这篇论文背后的研究人员只有两位。

参考链接:

一作为MIT的在读博士生Jonathan Frankle,在普林斯顿大学完成计算机科学的本科和研究生学习时,Frankle小哥曾去谷歌、微软、乔治城大学实习,主要研究人工智能、应用密码学和技术政策。

发现改变世界的新兴科技

二作Michael Carbin为MIT电子工程和计算机科学的助理教授,此前在微软雷德蒙研究院的研究员,从事大规模深度学习系统的研究,包括优化和应用。

{"type":2,"value":"

(微信号:deeptechchina)

图片 7

{"type":2,"value":"

此前,Carbin的数篇论文被ICML19、OOPSLA18、LICS18等机器学习大会接收。

最佳论文×2

今年的ICLR最佳论文共有两篇,除了彩票假设外,还有一篇蒙特利尔大学 MILA 研究所和微软研究院的作品:

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks,翻译过来就是《有序神经元:将树结构集成到循环神经网络》。

图片 8

自然语言是一种有层次的结构:小的单元会嵌套在大单元里,比如短语会嵌套在句子中。当较大的单元关闭时,其中的小单元也必须关闭。

虽然标准的LSTM架构可以将不同的神经元在不同的时间阶段追踪信息,但在模型构成层次上差别不大。

在这篇论文中,研究人员提出,通过对神经元进行排序,增加这种归纳偏差,用一个控制输入和遗忘门的向量来确保当给定神经元更新时,跟随它的所有神经元也将按照顺序被更新。

这种全新的循环结构称为有序神经元LSTM ,在语言建模、无监督语法分析、目标语法评估和逻辑推理这四个不同的任务上取得了不错的性能。

论文地址:

传送门

最后,附上ICLR 2019官网地址:

—完—

小程序|get更多AI学习干货

图片 9

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

喜欢就点「在看」吧 !

本文由10bet体育手机版发布于科技资讯,转载请注明出处:神经网络子网络压缩10倍精确度不变,MIT科学家提出彩票假设

关键词:

解放军20日起将连续8天在渤黄海执行军事任务,解放军五一期间

解放军20日起将连续8天在渤黄海执行军事任务 解放军五一期间在渤黄海执行军事任务 持续8天 据辽宁海事局网站消息...

详细>>

强冷空气将影响中东部地区南方部分地区有雨雪天气10bet体育手

未来3天全国大部大风降温 最大降温幅度超14℃ 据中央气象台预报,受强冷空气影响,预计11月30日至12月1日,我国中...

详细>>

传苹果公司明年4到6月间发布12英寸iPad,全线产品信息更新

传苹果公司明年4到6月间发布12英寸iPad 说到ipad,想必已经是很多果粉们的爱,然而今天国外媒体又曝光了传说已久的...

详细>>

69岁广东汕头原政协主席杀死35岁情妇后自首,汕头政协原主席因

汕头政协原主席赖益成杀情人续:疑因择菜引争执 :2014-12-02 08:36:0011月28日,汕头市中级人民法院开庭审理了一宗涉嫌故...

详细>>