高性价比模型 TSM,用 2D 的成本达到 3D 的效果

出品人:Towhee 技术团队

MIT 和 IBM Watson AI Lab 联合提出一种高效的视频理解模型 TSM(Temporal Shift Module),在保留 2D 效率的同时,通过时间位移模拟 3D 建模提高模型性能。以往的模型理解视频时,需要在传统图片分析的基础上耗费大量算力补充关于时间的信息。TSM 的出现,使得低成本实现高性能视频理解模型成为可能。

高性价比模型 TSM,用 2D 的成本达到 3D 的效果_第1张图片

TSM:Temporal shifting

2D CNN 和 3D CNN是视频理解中最常用的两个方法:使用 2D CNN 模型运算量少,但会丧失部分时间信息;而使用 3D CNN 虽然效果好,但运算量极大。面对这样的情况,TSM 将时间位移模块嵌入 2D CNN,从而可以在不添加任何额外的计算量和参数的情况下,轻松的达到与 3D CNN 效果相当的视频理解能力。

参考资料
模型用例:action-classification/tsm
论文: TSM: Temporal Shift Module for Efficient Video Understanding
更多资料:
视频分类 | 论文 2019 TSM: Temporal Shift Module for Efficient Video Understanding
TSM:Temporal Shift Module for 视频理解


更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/... ) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

你可能感兴趣的