Transformer训练速度超越3D CNN，提升3倍

TiMeSfoRMeR是一种创新的视频理解架构，标志着首个基于Transformer设计的视频模型。与传统的3D CNN相比，它在视频剪辑处理上具有更高的上限，最长可达几分钟，且成本显著降低。

TiMeSfoRMeR，即时间-空间Transformer，完全依赖Transformer的自注意机制，已经成为众多自然语言处理(NLP)应用的核心技术。

在一些具有挑战性的动作识别基准上，TiMeSfoRMeR展现了卓越的性能，特别是在Kinetics-400动作识别数据集上。相比现代3D卷积神经网络(CNN)，TiMeSfoRMeR的训练速度提升了约三倍，推理计算量则降至原来的十分之一。

TiMeSfoRMeR的可伸缩性使其能够处理更长的视频剪辑和更大规模的模型，这为人工智能系统理解复杂的人类行为提供了可能。

在Kinetics-400和Kinetics-600动作识别基准中，TiMeSfoRMeR的分类精度超越了先进的3D卷积神经网络，成为这两个数据集上的最高准确度模型。

传统的视频分类模型依赖3D卷积滤波器，而TiMeSfoRMeR则完全基于Transformer的自注意力机制，能够有效捕捉整个视频的时空依赖性。

TiMeSfoRMeR的高效性使其能够在超长时间范围内进行建模，支持长视频剪辑的处理，这与当前的3D CNN有着显著的不同。

该模型的设计使其能够训练高空间分辨率的模型，并分析超长视频，揭示原子动作之间的依赖关系。

通过TiMeSfoRMeR学习的自注意力热度图可视化展示了该模型如何关注视频中的关键区域，以实现复杂的时空推理。

TiMeSfoRMeR的剪辑处理上限可达几分钟，使得训练更长的视频剪辑成为可能，这对研究人类行为的人工智能应用至关重要。

此外，TiMeSfoRMeR的低推理成本为未来实时视频处理应用，如增强现实/虚拟现实（AR/VR）和基于可穿戴摄像机的视频智能助手，提供了重要支持。

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]

互联网资讯 / 人工智能 · 2023年12月3日 0