DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器、传媒热点、传媒资讯、苏州钰尚传媒-商业品牌企业运营服务商

苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作，平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询联系微信：esay8168 ,联系：电话18888186853微信同号

合作咨询

QQ：

微信：esay8168

扫微信二维码

联系

电话18888186853微信同号

联
系
我
们

这里是文章模块栏目内容页

DeepMind验证卷积神经网络在大规模数据集上可媲美视觉变换器

euiyhu9856

2023-10-28 06:36:29

核心要点:
1. 最近的研究表明，卷积神经网络（ConvNets）在大规模数据集上可以与视觉变换器(Vision Transformers)媲美，挑战了以往认为视觉变换器在这方面具有卓越性能的观点。
2. 研究团队使用NFNet模型在巨大的JFT-4B数据集上进行了训练，发现随着计算资源的增加，ConvNets的性能可以与视觉变换器相匹敌，达到了令人印象深刻的ImageNet Top-1准确度。
3. 该研究突出了计算资源和可用于训练的数据量是影响模型性能的主要因素，以及ConvNets，特别是NFNet架构，具备在以往认为是视觉变换器领域的规模上竞争的能力。

站长之家（ChinaZ.com）10月27日消息:最新研究表明，卷积神经网络（ConvNets）在大规模数据集上能够与视觉变换器(Vision Transformers)媲美，挑战了以往认为视觉变换器在这方面具有卓越性能的观点。在计算机视觉领域，ConvNets一直以来都是在各种基准测试中取得卓越性能的标准。然而，近年来，视觉变换器逐渐崭露头角，逐渐超越了ConvNets。有许多专家认为ConvNets在小到中等规模数据集上表现出色，但在面对大规模数据集时，视觉变换器占据了优势。

论文地址:https://arxiv.org/pdf/2310.16764.pdf

一项由Google DeepMind的研究团队进行的新研究挑战了视觉变换器在规模上具有卓越扩展能力的普遍观点。该团队对一种纯粹的ConvNet架构进行了全面评估，这种架构被称为NFNet模型，该模型在大规模数据集上进行了预训练。研究结果显示，ConvNets在大规模数据集上确实可以与视觉变换器相匹敌。

研究团队在巨大的JFT-4B数据集上训练了各种深度和宽度不同的NFNet模型。这个数据集包含大约40亿张图像，涵盖了3万个类别。在对预训练的NFNet模型进行50个时代的微调后，ImageNet Top-1误差在与预训练时使用的计算资源的直接相关性下持续改善。最大的模型，被称为F7+，在可比较的计算预算下达到了与预训练的视觉变换器报告的性能相当的ImageNet Top-1准确度，达到了惊人的90.3%。

为了更清楚地了解验证损失与预训练计算之间的关系，研究团队绘制了每个模型所需计算预算结束时的验证损失。这个练习揭示了一个明显的线性趋势，与支配验证损失和预训练计算的对数缩放定律一致。随着计算资源的增加，最佳模型大小和训练时期的预算也随之增加。此外，人们还注意到，调整ConvNets的一个可靠经验法则是按比例调整模型大小和训练时期的数量。

有趣的是，研究人员还调查了NFNet系列的三种不同模型（F0、F3、F7+）在一系列时期预算下的最佳学习率。他们的研究结果表明，当受到较小的时期预算限制时，所有这些模型都表现出相似的最佳学习率(约为1.6)。然而，随着时期预算的增加，最佳学习率减小，较大的模型经历了更快的下降。

总的来说，这项研究强调了在计算机视觉领域，合理设计的模型性能的主要因素是计算资源和可用于训练的数据量。从这项工作中可以明显看出，ConvNets，特别是NFNet架构，具备在以往认为是视觉变换器领域的规模上竞争的能力。这些结果突显了同时扩展计算和数据资源的重要性，为计算机视觉研究的未来带来了新的启示。

（）

免责声明：本站文章部分内容为本站原创，另有部分容来源于第三方或整理自互联网，其中转载部分仅供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对其内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

有帮助

上一篇：李佳琦不再是“最优解”

下一篇：规模创新高 “进博朋友圈”持续扩大

栏目索引