脸书Detectron开放源代码正式公开大众加速计算机视觉研究

网易科技 2018-01-29

　　Facebook本周宣布Detectron开放源代码正式向大众公开，该项目也是Facebook基于深度学习框架进行设计的关于计算机视觉对象检测算法平台。该公司表示，开放该项目的动机是加速计算机视觉研究，并且Facebook公司内部团队正在使用该代码进行各种应用测试，其中就包括针对增强现实技术的研究。

　　在我最近发表的一篇文章中，详细介绍了当今增强现实技术即将面临的三大挑战，在这其中我注意到计算机进行实时对象分类是我们最大的技术难区之一：

　　不仅仅只观察一个形状，让计算机利用视觉去理解“杯子”的物体含义是一个值得深究的问题。这就是为什么多年以来，我们在看到的增强现实技术演示中发现人们将基准标记附加到观察对象上，从而促进机器与观察物体之间更细致的跟踪和交互。

　　为什么难？我们要提到的第一个技术挑战是如何进行视觉分类。我们了解到，杯子有数千种形状，大小，颜色和纹理。有些杯子有特殊的属性，它们是为了特殊目的而制造的（如烧杯），这意味着它们在不同的地方和环境中有多种多样的用法。

　　让我们来想象关于如何写一个能帮助计算机理解所有我们在上面提到的这些概念的算法有多难，而且这只是为了能够在多个杯子中辨认出其中一个目标的杯子。我们还可以想想，关于写一个能够帮助电脑区分杯子和碗的代码是另一项需要完成的挑战。

　　我还谈到了为什么“深度学习”技术是实时对象分类问题的一个潜在的解决方案，它能够做到“培训”一台计算机来解释它所看到的，而不是用人工编程不断的一行行进行检测。 Facebook本周已经开发出了他们自创的对象检测算法，这可能会加速系统的开发，使系统能够进行实时对象分类，从而使增强现实技术真正得到广泛使用。

　　关于增强现实技术与我们周围物体实际相互作用的方式，在粗略地了解附近特定的场景之前并不用针对特定环境进行预先编程。例如，如果您戴着AR眼镜，并希望能够将烤箱温度投影到烤箱上方，然后还需要将冰箱中需要拿出来的食物的列表在AR眼镜中显示出来，则您的眼镜需要分辨烤箱和冰箱的样子。鉴于各种烤箱和冰箱以及它们生产地方的不同和放置位置的不同，这是一项极具挑战性的任务。

　　Facebook的人工智能研究团队最近一直在研究计算机视觉对象检测问题，并且它们正在尝试通过深度学习使计算机能够得出关于场景中存在什么物体的结论。在Facebook宣布基于Caffe2深度学习框架的对象检测算法开发的被称为Detectron的平台向大众开放后，现在任何人都可以在GitHub上利用该算法进行试验。 Facebook公司希望Detectron平台将使世界各地的计算机视觉研究人员能够尝试并不断改进最新的技术。

　　我们从项目的GitHub主页信息了解到，“Detectron的目标是为物体检测研究提供高质量，高性能的代码库。它的设计目的是通过灵活的方式来支持关于新颖技术的快速应用和评估的研究。”

　　该算法能通过检查视频输入信息，从而猜测离散对象来构成对应场景。诸如检测和识别人与物体相互作用（Gkioxari等）的研究项目已经使用了Detectron作为了解人类在环境中的行为的基础平台，该项目朝着帮助计算机充分理解我们正在做的事情的正确方向迈出了正确的步伐，从而使机器观察以后能够即时提供有价值的信息。

　　除了进行人工智能技术研究之外，Detectron也被Facebook内部广泛使用。该公司在Detectron宣布开放的消息中写道：“我们团队使用这个平台来培训各种应用的定制模型，其中包括增强现实技术和检查数据信息完整性的相关应用。”

　　具体哪些团队将使用Detectron应用增强现实技术并未公布，但是我们现在知道Oculus很可能会使用它，因为他的首席科学家Michael Abrash最近就增强现实技术将如何以及何时改变我们的生活发表了长篇演讲。

责任编辑：杨茗

上一篇：APP花式“套路”太多使用须谨慎

下一篇：我们把越来越多的数据存储在云端如何确保安全

科普中国APP 科普中国微信 科普中国微博