[科普中国]-ImageNet- · 科普中国网

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别; [2]一个典型的类别，如“气球”或“草莓”，包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得;但是，实际的图像不属于ImageNet。自2010年以来，ImageNet项目每年举办一次软件比赛，即ImageNet大规模视觉识别挑战赛（ILSVRC），软件程序竞相正确分类检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破，被广泛认为是2010年的深度学习革命的开始。

简介ImageNet就像一个网络一样，拥有多个Node（节点）。每一个node相当于一个item或者subcategory。据官网消息，一个node含有至少500个对应物体的可供训练的图片/图像。它实际上就是一个巨大的可供图像/视觉训练的图片库。

ImageNet的结构基本上是金字塔型：目录->子目录->图片集。

该数据库首次作为一个海报在普林斯顿大学计算机科学系的研究人员在佛罗里达州举行的2009年计算机视觉与模式识别（CVPR）会议上发布。

数据集ImageNet对其注释过程进行了众包。图像级注释表示图像中存在或不存在对象类，例如“此图像中有老虎”或“此图像中没有老虎”。对象级注释提供了指定对象（的可见部分）周围的边界框。 ImageNet使用广泛的WordNet架构的变体来对对象进行分类，增加了120种类别的狗品种以展示细粒度的分类。WordNet使用的一个缺点是这些类别可能比ImageNet最适合的“提升”：“大多数人对Lady Gaga或iPod Mini比对这种罕见的双龙座更感兴趣。” 2012年，ImageNet是Mechanical Turk的全球最大学术用户。普通工人每分钟识别50张图像。

ImageNet挑战自2010年以来，每年度ImageNet大规模视觉识别挑战赛（ILSVRC），研究团队在给定的数据集上评估其算法，并在几项视觉识别任务中争夺更高的准确性。 ILSVRC旨在“追踪2005年建立的规模较小的PASCAL VOC挑战”，该挑战仅包含大约20000个图像和20个目标类别。 ILSVRC使用仅包含1000个图像类别或“类别”的“修剪”列表，其中120个品种中有90个由完整的ImageNet架构分类。 2010年在图像处理方面取得了显着进展。 2011年左右，ILSVRC分类错误率为25%。 2012年，深卷积神经网络达到了16%;在接下来的几年中，错误率下降到几个百分点。虽然2012年的突破是“前所未有的组合”，但大幅量化的改进标志着全行业人工智能繁荣的开始。到2015年，研究人员报告说，软件在狭窄的ILSVRC任务中超出人类能力。然而，作为挑战组织者之一的Olga Russakovsky在2015年指出，这些计划只需将图像识别为属于千分之一的图像;人类可以识别更多的类别，并且（不像程序）可以判断图像的上下文。

到2014年，超过50家机构参加了ILSVRC。2015年，百度科学家因使用不同帐户而被禁止使用一年，大大超过每周两次提交的指定限制。百度后来表示，它解雇了涉及的团队领导，并建立了一个科学咨询小组。

2017年，38个竞争团队中有29个错误率低于5%。 2017年，ImageNet宣布将在2018年推出一项新的，更加困难的挑战，其中涉及使用自然语言对3D对象进行分类。由于创建3D数据比注释预先存在的2D图像更昂贵，数据集预计会更小。这方面的进展应用范围从机器人导航到增强现实。

2017年11月前后，谷歌的AutoML项目发展出新的神经网络拓扑结构，创建了NASNet，这是一个针对ImageNet和COCO优化的系统。据Google称，NASNet的性能超过了以前发布的所有ImageNet性能。1

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学