现存问题:现有的跟踪框架还远远没有利用好连续帧间的时域上下文关系。
本文做法:提出TCTrack框架来充分探索空中跟踪的时域上下文。其中,时域上下文关系分为2个阶段融入跟踪器中:特征提取阶段和相似图的细化阶段。具体地,1)特征提取阶段:提出了一个在线时序自适应卷积用时序信息来增强空间特征,这一过程根据之前帧来动态校准卷积权重实现。2)相似图的细化阶段:提出一个自适应时序Transformer,它先以高效记忆的方式有效编码时域知识,然后这个时域知识被解码用于精准地调整相似图。
效果:在4个空中追踪数据集上展示出了强劲的竞争性能,并在real-world UAV上用NVIDIA Jetson AGX Xavier实现了27FPS的速度。
无人机的跟踪背景介绍:由于无人机的优越动力,基于跟踪的应用正在迅速发展,如移动目标分析,地理调查,视觉定位等。然而,空中跟踪面临着2大难点:1)空中不可避免地会引入一些特别的挑战,如移动模糊,相机移动,遮挡等;2)空中平台的有限功率限制了计算资源,阻碍了最先进方法的部署。因此,一个理想的空中追踪器应该是鲁棒且高效的。
DCF和孪生网络方法的简介:大部分跟踪器都采取了标准的追踪检测框架并独立地为每帧进行检测。在这些追踪器中,判别相关滤波(DCF)方法由于其高效性和源于傅里叶域的低资源需求已经广泛地应用于空中平台。然而,这些跟踪器在快速移动,严重形变场景下仍然面临着巨大的挑战。近期,基于孪生网络的方法大量涌现,其展现了精准和鲁棒的跟踪结果,其效率也被提高用于空中平台的实时跟踪实施部署。
发现科学问题:然而,以上这些方法都忽略了时域信息,即连续帧之间的强相关性,所有这些方法很难用于感知目标的移动信息。因此,这些跟踪器很可能在目标严重形变(快速移动和遮挡)时跟踪失败。所以近期很多研究致力于利用视觉跟踪中的时域信息。对DCF来说,响应图沿时间维度的变化受到惩罚,它通过先前的响应图引导当前响应图。对基于孪生网络的方法,时域信息通过动态模板引入,其通过级联/加权和/图网络/transformer/记忆网络等技术在当前帧中嵌入历史目标外观信息。尽管他们在引入时域信息已经有了一定的成功,但大部分方法都仅探索了一个阶段,即目标特征的改进。
本文工作:
本文实验:和51个跟踪器在4个空中追踪数据集上比较。TCTrack在PC上的检测速度是125.6fps,在AGX上27FPS。
MOSSE filter提出后,许多学者致力于研究跟踪算法,但其特征表达能力差,难以在复杂空中环境下维持跟踪鲁棒性。
孪生网络的方法实现了SOTA。
但这些方法都忽略了追踪场景中的时域上下文信息,限制了性能的提升。
动态模板:transformer集成,模板记忆更新,图网络,加权和,显式模板更新等。
这些方法以单层次的方式引入时域信息,在跟踪任务上性能提升有限。而本文从两个层次引入时域信息。
自监督方法通过求解各种前置任务(如稠密未来预测,拼图解谜,伪运动分类等)学习时域信息;
监督视频理解探索不同帧间的各种链接,如3D卷积,时域卷积,时域飘移等。
下图展示了TCTrack的整体框架图,分为三部分:特征提取(3.1节中介绍)+相似性特征图改善(3.2节中介绍)+分类和回归分支。
在AT-Trans改善后,相似性特征图明显更关注于目标所在区域。
4个空中数据集:UAV123, UAVTrack112_L, UAV123@10fps, DTB70
51个对比算法,分为2类:轻量级的(29个)和深度的(超过20个)。
训练细节 | 设置 |
---|---|
Backbone | AlexNet |
初始化方式 | ImageNet预训练的AlexNet和TAdaConv,AT-Trans随机初始化 |
训练集 | VID, LaSOT, GOT-10k |
训练参数 | 100epochs, 2个TITAN RTX GPUs,前10个epoch,Backbone参数冻结,lr以指数下降从0.005-0.0005,SGD优化器,momentum=0.9, batch size=124对 |
图像大小 | 模板:127x127; 搜索区域:287x287 |
其他 | TAdaConv替代AlexNet的最后2个卷积层 |
数据集 | 介绍 | 对比结果 |
---|---|---|
UAV123 | 124个序列,超过112K帧 | 比HiFt, SiamRPN++在AUC上胜出3%和4.3% |
DTB70 | 70个剧烈运动场景 | 排名第1,提升了5%的AUC |
UAV123@10fps | 运动和变化更加突然和剧烈 | 超过了第二好的算法 |
UAVTrack112_L | 当前最大的长时空中跟踪数据集,超过60k帧 | precision (0.786) and success rate (0.582) |