京东探索稀疏三维空间点云 Global Context 论文入选 NeurIPS2020

2020-12-04 16:02:24 来自: 科技快报网

近日，第 34 届神经信息处理系统大会（Conference on Neural Information Processing Systems，简称 NeurIPS，NIPS）在线上召开。作为全球顶级的机器学习和计算神经科学会议，今年的 NIPS 依然受到了学者们的高度关注，甚至由于其线上开放的特性缓解了往年抢票难的问题，而将获得更多的 " 听众 "。

据悉，今年 NeurIPS 稿件录取率为 20.09%，创下历史新低。在如此严苛的录取标准之下，京东 AI 深度学习与语音语义实验室提交的探索稀疏 3D 点云 Global Context 的论文《Group Contextual Encoding for 3D Point Clouds》成功入选。今年以来，京东 AI 深度学习与语音语义实验室的研究成果频获国际认可，此前还有多篇论文入选国际语音和语言处理顶会比如 ACL 2020、AAAI 2020、INTERSPEECH 2020 等。

Global Context 对视觉感知至关重要，可以根据语义信息提高物体识别的准确率，但目前针对 3D 点云的 Global Context 的研究还不够充分，特别是在三维空间的情况下，数据呈现高维、稀疏的特点，对传统深度学习算法提出了挑战。因此，京东 AI 研究院基于其研究实习生计划与东京大学合作了《Group Contextual Encoding for 3D Point Clouds》，针对这一研究领域提出了 Group Contextual Encoding 的 Global Context 学习方法。

从目前已有 3D 点云 Global Context 的研究成果来看，比如 LG-PointNet 【1】，其复杂度为，N 是输入点的个数。当场景复杂时，输入点数较多会导致耗费相当大的算力。Contextual Encoding Layer【2】的复杂度是，是一种有效率的方法，K 是该方法里 code word 数目。但是点云数据稀疏导致的过拟合现象（overfitting），会影响性能的提升，导致在 ScanNet，SUN-RGBD 数据集上 3D 检测性能随着 Code word 数目 K 的增长，性能却很快就饱和不再增长。虽然目前有一些深度补全的算法可以解决数据稀疏这个问题，但是这些算法都存在结构复杂、耗费计算资源的问题，因此，京东 AI 研究院决定探索简单有效的方法。

首先要解决数据的稀疏问题。通过把特征通道分组，从而获得更多的等效数据，如图 1 所示，如果把通道分成 G 组特征子向量，数据就相对应增广了 G 倍。再将分组后的特征子向量通过 Encoding layer 得到 Global context，从而有利于在分组后的特征子空间学习全局上下文，然后通过 channel attention 的形式作用于分组后的特征。最后通过 Concat 操作恢复为原特征的尺寸。如此操作既解决了数据的稀疏问题，又解决算法结构复杂、算力耗费巨大的问题。

图 1：Group Contextual Encoding 方法图。

随后，京东 AI 研究院又将这种方法在多个 3D 数集上进行验证，不仅证实这种方法简单有效，还刷新了 SOTA 方法的性能。将这种方法应用在 PointNet Backbone 上，并部署到 VoteNet 模型。如表 1 所示，在 ScanNet 数据集以 mAP@0.25 指标测评时，该方法领先 VoteNet 【3】 2.2mAP，增幅已然明显，但更令人惊喜的是，在更加严格的 mAP@0.5 的指标下，如表 2 所示，该方法领先 Waymo、Facebook AI Research 以及 Stanford 大学提出的 VoteNet 高达 6.57 mAP，可视化结果如图 2 所示。

表 1：ScanNet 数据集 mAP@0.25 评测指标的结果。

表 2：ScanNet 数据集 mAP@0.5 评测指标的结果。

图 2：ScanNet 数据集的结果可视图。在 SUN-RGBD 数据集，我们的方法也领先 VoteNet 3mAP，具体定量以及定性结果如表 3 和图 3 所示。

表 3：SUN-RGBD 数据集 mAP@0.25 评测指标的结果 .

图 3：SUN-RGBD 数据集的结果可视图。

京东自 2017 年开始全面向技术转型，用技术重塑了京东的生态系统，逐渐突破零售边界，拓展至数字科技、物流、健康等众多领域。一直以来，消费者们更多的在购物、物流等环节体验到京东技术的进步，如今，京东在人工智能领域的长足进展不仅获得学术界的认可，也逐渐被更多的用户所知悉，京东的智能语音技术也已经在智能外呼机器人、客服语音机器人等电话交互场景中实现成熟应用，此次提出的 Group Contextual Encoding 方法也可以应用在下游的 AR（增强现实）、MR（混合现实）以及机器人，自动驾驶等领域，推动这些领域的发展。京东技术将不仅赋能金融、医疗、教育、健康等行业，还将在更多领域为用户提供便利。

参考文献

【1】Wang, Xu, Jingming He, and Lin Ma. "Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations." Advances in Neural Information Processing Systems. 2019.

【2】Zhang, Hang, et al. "Context encoding for semantic segmentation." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018.

【3】Qi, Charles R., et al. "Deep hough voting for 3d object detection in point clouds." Proceedings of the IEEE International Conference on Computer Vision. 2019.

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:科技快报网

亿田智能上市：市值62亿红星美凯龙与居然之家是股东嫦娥五号已经准备将样本带回

		自动登录	找回密码
密码			立即注册

京东探索稀疏三维空间点云 Global Context 论文入选 NeurIPS2020

相关阅读

相关分类

热门关注