日前,京东探索研究院联合悉尼大学提出了更大规模、更优效果、对各类视觉任务具有更好适应性的超级深度学习模型ViTAEv2。值得提及的是,具有6亿参数的ViTAEv2模型在不依赖任何外源数据的情况下,斩获了ImageNet Real数据集分类准确度“世界排名第一”的突出成绩,精准高达91.2%,成功刷新图片分类技术领域的世界级纪录。
一直以来,ImageNet数据集作为目前最大的"图像分类"公开数据集,其识别准确率榜单吸引了包括谷歌、微软、FACEBOOK等国际顶尖科技公司以及斯坦福大学、麻省理工大学、新加坡国立大学等知名高校在内的关注并参与,其数据指标一度被广泛应用于衡量计算机视觉技术水平高下的重要标准,影响深远。
计算机视觉技术作为人工智能核心科技之一,目的是赋予机器以观察、感知和理解的能力,而图像分类作为计算机视觉的基础任务更是被广泛认知。本次“榜上有名”的ViTAEv2模型采用了“预训练-微调”范式,从模型架构和训练范式进行突破,充分利用了归纳偏置在大规模模型的有效性,以及与模型结构相适应的预训练算法与迁移学习算法来达成目标效果。
“另外我们还探索了大规模ViTAEv2模型的少样本学习能力,也就是分别使用1%、10%以及100%的数据对大规模ViTAEv2模型进行微调,结果表明仅使用少量数据,即10%的数据进行微调时,大规模模型性能已显著优于使用全部数据的规模较小的模型,进一步证实了大规模模型具有很强的少样本学习能力,这说明超级深度模型具有强大的表征能力、学习能力和样本效率。”京东探索研究院方面表示。
此举充分验证了ViTAEv2模型有能力帮助解决低资源甚至是零资源下的挑战性任务,以及降低数据标注成本、加速算法开发周期、简化模型部署、赋能和促进新一代自动化学习技术的研发和落地的杰出能力。
值得肯定的是,ViTAEv2模型的优异表现助力京东探索研究院计算机视觉模型水平再上新台阶,后续有望继续推动一系列视觉任务的发展,例如语义分割、物体检测、姿态估计、视频物体分割等。未来,如何从训练方法、模型架构设计等方向进一步提升ViTAEv2模型的性能并同时降低训练和推理的成本,是值得进一步探索的研究方向。
关键词: 人工智能