notesum.ai

Published at November 15

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

cs.CV

cs.AI

Released Date: November 15, 2024

Authors: Andong Deng¹, Tongjia Chen², Shoubin Yu³, Taojiannan Yang⁴, Lincoln Spencer¹, Yapeng Tian⁵, Ajmal Saeed Mian², Mohit Bansal³, Chen Chen¹

Aff.: ¹Center for Research in Computer Vision, University of Central Florida; ²University of Western Australia; ³UNC, Chapel Hill; ⁴Amazon Web Services; ⁵University of Texas at Dallas

Arxiv: http://arxiv.org/abs/2411.09921v1

Tasks

Datasets & Benchmarks

Spatial

Context

Temporal

Context

Motion

Abstraction

Pixel-level

Output

Implicit

Reasoning

Action Recognition

Kinetics400 (Carreira & Zisserman, 2017), UCF101 (Soomro et al., 2012)

✗

Temporal Action Localization

ActivityNet (Caba Heilbron et al., 2015), THUMOS14 (Jiang et al., 2014)

✗

✓

✗

Spatiotemporal Action Localization

AVA (Gu et al., 2018), MultiSports (Li et al., 2021)

✓

✗

Motion Expression Video Segmentation

MeViS (Ding et al., 2023)

✓

✗

✓

✗

Video Reasoning Segmentation

ReVOS (Yan et al., 2024), VideoReasonSeg Zheng et al. (2024)

✓

✗

✓

Motion-Grounded Video Reasoning

GroundMoRe (Ours)

✓