[Video Transformer] VTN: Video... Transformer Network
https://arxiv.org/abs/2102.00719SlowFast/README.mdatmaster·bomri/SlowFast·GitHubICCV2021Videoactionrecognition总结:相当于把CNN+LSTM结构中的LSTM替换为VTN适用于处理长视频,在inference时可以一次输入整个视频模型框架是模块化的,2Dbackbone可以换成不同的网络,注