腾讯优图11篇论文入选，涵盖动作识别、人群密度估计、人脸安全等领域

2020-12-12 16:54:39 来自: 厂商稿

　近日，国际人工智能顶级会议AAAI 2021公布了论文录取结果。AAAI是人工智能领域最悠久、涵盖内容最为广泛的国际顶级学术会议之一。AAAI 2021一共收到9034篇论文提交，其中有效审稿的数量为7911篇，最终录取数量为1692篇，录取率为21.4%。

　　AAAI(Association for the Advance of Artificial Intelligence), 即美国人工智能协会，是人工智能领域的主要学术组织之一，其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中，AAAI 均被列为人工智能领域的 A 类顶级会议。

　　本次AAAI 腾讯优图实验室共入选了11篇论文，涉及动作识别、人群密度估计、人脸安全等领域，展现了腾讯在计算机视觉领域的技术实力。

　　以下为部分腾讯优图入选AAAI 2021的论文：

　　0 1

　　学习用于动作识别的全面运动特征表达

　　Learning Comprehensive Motion Representation for Action Recognition

　　运动特征在动作识别中起到非常重要的作用。基于2D CNN的方法虽然高效，但是由于对每一帧都采用相同的二维卷积核，会产生大量的冗余和重复特征。近期有一些工作通过建立帧间的联系获取运动信息，但是依然存在感受野有限的问题。此外，特征的增强依旧只在通道或者空间维度单独进行。为了解决这些问题，腾讯优图首先提出了一个通道特征增强模块(CME)自适应地增强与运动相关的通道。增强系数通过分析整段视频的信息获得。根据相邻特征图之间的点对点相似性，腾讯优图进一步提出了一种空间运动增强(SME)模块，以指导模型集中于包含运动关键目标的区域，其背后的直觉是背景区域的变化通常比视频的运动区域慢。通过将CME和SME集成到现成的2D网络中，腾讯优图最终获得了用于动作识别的全面运动特征学习方法。腾讯优图的方法在三个公共数据集上取得了有竞争力的表现：Something-Something V1&V2和Kinetics-400。特别是在时序推理数据集Something-Something V1和V2上，当使用16帧作为输入时，腾讯优图的方法比之前最好的方法高2.3%和1.9%。

　　0 2

　　选择还是融合？基于自适应尺度选择的人群密度估计

　　To Choose or to Fuse? Scale Selection for Crowd Counting

　　本文提出了一种高效地充分利用网络内部多尺度特征表示的方法，能够有效解决人群密度估计中的大范围尺度变化问题。具体地，考虑到每层特征都有各自最擅长预测的人群尺度范围，本文提出了一种图像块级别的特征层选择策略来实现尽可能小的计数误差。显然，在没有人群尺度标注信息的情况下，任何人工指定人群尺度与特征层对应关系的方法都是次优的并会带来额外误差。相反地，本文提出的尺度自适应选择网络SASNet可以自动地学习这种对应关系，并通过软选择的方式来缓解离散的特征层与连续的人群尺度变化之间的矛盾。由于SASNet为同一图像块内相似尺度的人群选择同一特征层，直接使用传统的像素级损失函数会忽略图像块内部不同样本间各异的学习难度。因此，本文还提出了一种金字塔区域感知损失(PRA Loss)，从图像块级别开始以一种自上而下的方式迭代地选择最困难的样本来优化。鉴于PRA Loss能够根据上层父图像块是过预测还是欠预测来选择困难样本，因此还能够缓解业界普遍面临的训练目标最小化和计数误差最小化之间不一致的问题。腾讯优图的方法在多达四个公开数据集上取得了优异的性能。

　　解耦场景和运动的无监督视频表征学习

　　Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

　　相比于图像表征学习, 视频表征学习中的一个重要因素是物体运动信息 (O b ject Motion) 。然而腾讯优图发现, 在当前主流的视频数据集中, 一些动作类别会和发生的场景强相关, 导致模型往往只关注了场景信息。比如, 模型可能仅仅因为发生的场景是足球场, 就将拉拉队员在足球场上跳舞的视频判断成了踢足球。这违背了视频表征学习最初的目的, 即学习物体运动信息, 并且不容忽视的是, 不同的数据集可能会带来不同的场景偏见 ( Scene Bias ) 。为了解决这个问题, 腾讯优图提出了用两个简单的操作来解耦合场景和运动 ( Decoupling the Scene and the M o tion, DSM) , 以此来到达让模型更加关注运动信息的目的。具体来说, 腾讯优图为每段视频都会构造一个正样本和一个负样本, 相比于原始视频, 正样本的运动信息没有发生变化, 但场景被破坏掉了, 而负样本的运动信息发生了改变, 但场景信息基本被保留了下来。构造正负样本的操作分别叫做Spatial Local Disturbance 和Temporal Local Disturbance 。腾讯优图的优化目标是在隐空间在拉近正样本和原始视频的同时, 推远负样本。用这种方式, 场景带来的负面影响被削弱掉了, 而模型对时序也变得更加敏感。腾讯优图在两个任务上, 用不同的网络结构、不同的预训练数据集进行了实验验证, 发现腾讯优图方法在动作识别任务上, 在UCF101以及HMDB51数据集上分别超越当前学界领先水平8.1%以及8.8%。

　　面向真实图像超分辨率的频率一致性自适应方法 Frequency Consistent Adaptation for Real World Super Resolution

　　最近的基于深度学习的超分辨率(SR)方法在具有已知降质的图像上取得了卓越的性能。但是，这些方法在现实世界中总是会失败，因为理想退化(例如，双三次降采样)之后的低分辨率(LR)图像会偏离真实源域。在频率密度上可以清楚地观察到LR图像和真实世界图像之间的域间隙，这启发腾讯优图显式地缩小由于不正确的降质而导致的间隙。从这个角度出发，腾讯优图设计了一种新颖的频率一致性自适应方法(FCA)，能够确保将现有SR方法应用于真实场景时保持频域一致性。腾讯优图从无监督的图像中估计退化内核，并生成相应的LR图像。为了给核估计提供有用的梯度信息，腾讯优图提出了通过区分不同尺度图像的频率密度的频率密度比较器(FDC)。基于域一致的LR-HR对，腾讯优图训练了易于实现的卷积神经网络(CNN)SR模型。大量实验表明，所提出的FCA在真实环境下提高了SR模型的性能，以高保真度和合理的感知度获得了最先进的结果，从而为实际SR应用提供了一种新颖有效的框架。

12 / 2 页下一页

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:辛雯

谷歌发布MediaPipe Holistic，优化人体姿态、面部和手部华为获高通芯片许可联发科：我们不慌

		自动登录	找回密码
密码			立即注册

腾讯优图11篇论文入选，涵盖动作识别、人群密度估计、人脸安全等领域

相关阅读

相关分类

热门关注