요즘 Multi-Object Tracking (MOT)은 어디까지 왔을까?

영상 속 사람이나 차량, 혹은 여러 객체를 계속 따라가는 기술을 Multi-Object Tracking(MOT)이라고 한다. 겉으로 보기에는 단순해 보인다. 프레임마다 객체를 찾고, 그 객체가 다음 프레임에서도 같은 객체인지 이어 붙이면 될 것 같기 때문이다.

MOT 파이프라인

그런데 실제로는 그렇지 않다. 객체가 잠깐 가려지기도 하고, 비슷하게 생긴 객체가 여러 개 등장하기도 하며, 움직임이 갑자기 빨라지거나 방향을 바꾸기도 한다. 그래서 MOT는 단순히 “객체를 찾는 문제”가 아니라, 시간이 지나도 같은 객체의 정체성을 유지하는 문제에 가깝다. 이 서베이 논문도 바로 그 점을 MOT의 핵심으로 설명한다. 

최근 읽은 “Deep Learning-Based Multi-Object Tracking: A Comprehensive Survey from Foundations to State-of-the-Art”는 이런 MOT의 전체 흐름을 정리하기에 꽤 좋은 논문이었다. 이 논문은 최근 MOT를 크게 tracking-by-detection과 end-to-end tracking으로 나누고, 각 방식이 어떤 상황에서 강한지 비교한다. 또 2022년 이후의 최신 흐름까지 꽤 잘 담고 있다.  

이 글에서는 논문의 세부 수식보다는, “지금 MOT 분야가 어떤 방향으로 흘러가고 있는가”에 초점을 맞춰 정리해 보려고 한다.

MOT에서 진짜 어려운 건 detection보다 association이다. 

요즘 object detector 성능은 정말 좋아졌다. 그래서 얼핏 보면 tracking도 이미 거의 해결된 문제처럼 느껴질 수 있다.

하지만 프레임마다 객체를 잘 찾는 것과, 그 객체가 이전 프레임의 누구였는지를 안정적으로 유지하는 것은 전혀 다른 문제다.

예를 들어 두 사람이 교차해서 지나가거나, 한 사람이 잠깐 다른 물체 뒤로 숨었다가 다시 나타나면 tracker는 판단해야 한다. 같은 사람인가, 새로운 사람인가?

이 판단이 흔들리면 ID switch가 생긴다. 그래서 MOT의 핵심은 결국 detection 자체보다도 association, 즉 객체를 시간축 위에서 얼마나 잘 연결하느냐에 있다. 논문도 occlusion, 유사한 appearance, 예측하기 어려운 motion을 핵심 난점으로 꼽는다. 

이 때문에 MOT 성능을 볼 때는 숫자 하나만 보면 부족하다. 논문은 MOTA, IDF1, HOTA를 함께 보는데, 특히 HOTA가 detection과 association을 더 균형 있게 반영하는 지표라고 설명한다. MOTA는 detection 영향이 크고, IDF1은 identity consistency를 더 민감하게 본다. 즉, tracker를 평가할 때는 “잘 찾는가”와 “같은 객체를 잘 유지하는가”를 함께 봐야 한다는 뜻이다. 


“어떤 tracker가 최고인가?”라는 질문은 생각보다 어렵다

이 논문이 좋은 이유 중 하나는, 어떤 tracker가 최고인지 단순하게 말하지 않는다는 점이다.

그 이유는 데이터셋마다 성격이 너무 다르기 때문이다. 예를 들어 MOT17, MOT20은 crowded pedestrian tracking에 가깝고, DanceTrack은 비슷한 외형과 비선형 motion이 강하며, SportsMOT은 빠른 움직임과 카메라 변화가 더 크다. 논문은 바로 이 차이를 강조하면서, 하나의 데이터셋에서 잘 되는 방법이 다른 데이터셋에서도 꼭 강하지는 않다고 설명한다. 

이 말은 꽤 중요하다. MOT 분야에서는 리더보드 숫자만 보고 “이 방법이 제일 좋다”고 말하기 쉽지만, 사실 더 정확한 표현은 이렇다.


“이 방법은 이런 장면에서 강하다.”

즉, crowded scene에 강한 방법과, 복잡한 motion에 강한 방법은 다를 수 있다.

아직도 강한 중심축은 tracking-by-detection이다

요즘은 end-to-end라는 말이 워낙 강해서, tracking도 이미 그쪽이 완전히 주류일 것처럼 보인다. 그런데 이 논문은 좀 더 균형 있게 설명한다.

현재까지도 실전적으로 가장 강력한 축 중 하나는 여전히 tracking-by-detection이다. 구조는 단순하다. 먼저 detector가 프레임마다 객체를 찾고, 그다음 association 단계에서 이전 프레임의 track과 현재 detection을 연결한다. 이 방식의 가장 큰 장점은 모듈성이다. detector를 바꿀 수도 있고, motion model을 바꿀 수도 있고, re-ID 모듈을 더하거나 뺄 수도 있다. 환경에 따라 조합을 바꾸기 쉽다는 뜻이다. 


이 흐름의 출발점은 잘 알려진 SORT와 Deep SORT다. SORT는 detector, Kalman filter, Hungarian matching이라는 단순한 조합으로 tracking-by-detection의 기본형을 만들었다. Deep SORT는 여기에 appearance feature를 더해, 단순한 motion뿐 아니라 “생김새 정보”까지 association에 반영하는 방향을 열었다. 지금의 많은 tracker는 결국 이 두 방법 위에서 발전한 셈이다. 

ByteTrack 이후, tracking-by-detection은 훨씬 더 강해졌다

이 논문에서 tracking-by-detection 쪽 흐름을 보다 보면, 결국 가장 눈에 띄는 이름은 ByteTrack이다. ByteTrack의 아이디어는 의외로 단순하다. 기존에는 confidence가 낮은 detection을 버리는 경우가 많았지만, ByteTrack은 낮은 score의 detection도 association에 적극 활용한다. 가려진 객체는 detector confidence가 낮아질 수 있기 때문이다. 즉, “점수가 낮다”는 이유만으로 버리면 오히려 같은 객체를 놓칠 수 있다. ByteTrack은 이 지점을 잘 파고들었고, 이후 수많은 tracker의 기반이 되었다. 논문도 ByteTrack을 매우 영향력 있는 방법으로 다룬다. 


그리고 그 뒤로 BoT-SORT, ImprAsso, BoostTrack, Hybrid-SORT 같은 방법들이 등장했다. 이들은 완전히 새로운 패러다임이라기보다, ByteTrack 위에 더 좋은 re-ID, camera motion compensation, confidence modeling, bounding box expansion 같은 다양한 아이디어를 얹은 형태에 가깝다. 흥미로운 점은, 이 계열의 최신 방법들이 거대한 새 모델보다도 정교한 association engineering으로 매우 강한 성능을 만든다는 점이다. 특히 crowded benchmark에서는 이런 방식이 여전히 강력하다. 

하지만 복잡한 motion 앞에서는 이야기가 달라진다

Kalman filter 기반의 간단한 motion model은 생각보다 꽤 잘 작동한다. 특히 보행자처럼 움직임이 비교적 단순한 경우에는 더 그렇다.

문제는 객체가 갑자기 방향을 바꾸고, 속도가 크게 달라지고, 카메라도 함께 움직이는 장면이다. 이런 상황에서는 선형 motion 가정이 약해진다. 그래서 등장하는 흐름이 motion-based tracking이다.


논문은 OC-SORT, Deep OC-SORT, MoveSORT, MotionTrack, ETTrack, DeepMoveSORT 같은 방법들을 이 계열로 묶는다. 이들은 Kalman filter의 한계를 줄이거나, 아예 더 학습적인 motion model을 도입해 복잡한 움직임을 더 잘 다루려는 시도다. 특히 DanceTrack이나 SportsMOT 같은 데이터셋에서는 이런 방향의 중요성이 더 크게 드러난다. 

즉, crowded scene에서는 heuristic-heavy tracker가 강할 수 있지만, 복잡한 motion이 핵심인 장면에서는 motion 자체를 더 잘 이해하는 tracker가 필요해진다.


이제 association도 “규칙”보다 “학습”의 방향으로 간다

이 논문에서 특히 흥미로운 흐름은 affinity learning이다.

전통적인 tracking-by-detection에서는 association cost를 사람이 설계하는 경우가 많았다. IoU를 쓸지, appearance similarity를 어떻게 계산할지, confidence를 어떻게 반영할지 등을 손으로 정하는 식이다. 그런데 affinity learning 계열은 한 걸음 더 나아간다.

아예 “이 detection과 이 track이 같은 객체일 가능성” 자체를 데이터로부터 배우자는 것이다.


논문은 TWIX, QDTrack, SMILETrack, StrongSORT++의 AFLink 같은 방법들을 소개하면서, 이 방향을 tracking-by-detection 안에서 매우 자연스러운 진화라고 본다. 결국 heuristic보다 더 일반적인 association function을 배우는 방향이기 때문이다. 

이 부분을 보면, MOT가 단순히 detector 성능 경쟁이 아니라는 점이 더 분명해진다. 앞으로는 “얼마나 잘 찾느냐”만큼이나 “얼마나 잘 연결하는가를 학습하느냐”가 더 중요해질 가능성이 크다.


end-to-end tracking은 분명 매력적이다

논문의 다른 큰축은 end-to-end tracking이다. 대표적인 방법은 MOTR이고, 이후 MOTRv2, MOTRv3, MeMOT, MeMOTR, MOTIP 같은 방법들이 이어진다. 이 계열은 detection과 association을 별도의 단계로 나누지 않고, 하나의 모델 안에서 함께 학습하려는 방향이다. 

이 방식은 분명 매력적이다. 구조가 우아하고, detection과 association을 jointly optimize할 수 있으며, hand-crafted heuristic에 덜 의존한다. 장기적으로는 더 일반적인 해법처럼 보인다. 논문도 이 점을 인정한다. 하지만 현실적인 한계도 있다. 학습에 많은 GPU와 VRAM이 필요하고, 추론도 느린 편이며, crowded scene에서는 tracking-by-detection보다 약한 경우가 있다. 즉, end-to-end는 분명 미래지향적인 방향이지만, 현재 시점에서 모든 상황의 정답이라고 말하기는 어렵다는 것이 이 논문의 균형 잡힌 결론이다. 


그래서 지금 MOT의 핵심 흐름은 무엇일까

이 논문을 읽고 나면, 지금 MOT는 대략 이렇게 정리된다.

crowded하고 motion이 비교적 단순한 장면에서는 여전히 heuristic-rich tracking-by-detection이 강하다. ByteTrack 계열과 그 후속 방법들이 좋은 예다. 반대로 motion이 복잡하고, appearance만으로는 구분이 어렵고, 더 다양한 장면을 다뤄야 하는 경우에는 learned motion model, affinity learning, end-to-end tracking의 중요성이 커진다. DanceTrack과 SportsMOT 비교가 바로 그걸 보여준다. 그리고 무엇보다 중요한 건, 한 데이터셋에서 잘된다고 해서 일반적으로 좋은 tracker라고 단정할 수는 없다는 점이다. 그래서 논문은 여러 데이터셋을 묶어 보는 multi-domain 비교도 시도한다. 완벽한 해법은 아니지만, 적어도 단일 리더보드 숫자만 보는 것보다는 훨씬 건강한 시선이다. 


이 서베이는 단순히 최신 논문을 나열하는 글이 아니다. 오히려 MOT가 어떤 철학의 갈래로 발전해 왔는지 보여주는 지도에 가깝다. SORT와 Deep SORT가 기반을 만들었고, ByteTrack이 tracking-by-detection의 현대적 기준점을 세웠다. 그 위에서 heuristic tracker들이 crowded benchmark를 장악했고, 동시에 motion을 더 잘 배우는 방법과 affinity를 학습하는 방법, 그리고 end-to-end tracking이 다음 방향을 만들어 가고 있다.  


결국 이 논문이 주는 가장 큰 메시지는 단순하다. MOT에는 하나의 정답이 없다.

대신, 장면의 특성과 문제의 성격에 따라 강한 방법이 달라진다.


그래서 MOT를 이해하는 가장 좋은 방법은 “누가 몇 점을 얻었는가”를 외우는 것이 아니라, 왜 어떤 방법이 어떤 환경에서 강한가를 보는 것이다.

그 점에서 이 논문은, 지금 MOT를 한 번에 정리해 보고 싶은 사람에게 꽤 좋은 출발점이 된다. 


참고문헌 (앞으로 읽어야 하는)

[1] Adžemović, Momir. "Deep learning-based multi-object tracking: A comprehensive survey from foundations to state-of-the-art." arXiv preprint arXiv:2506.13457 (2025).

[2] Fei, Lunlin, and Bing Han. "Multi-object multi-camera tracking based on deep learning for intelligent transportation: A review." Sensors 23.8 (2023): 3852.

[3] Guan, Zhiyu, et al. "Multi-object tracking review: retrospective and emerging trend." Artificial Intelligence Review 58.8 (2025): 235.

[4] Raja, Rahul, et al. "Object Tracking: A Comprehensive Survey From Classical Approaches to Large Vision-Language and Foundation Models." Available at SSRN 5541079 (2025).

[5] Kamboj, Abhi. "The progression of transformers from language to vision to mot: A literature review on multi-object tracking with transformers." arXiv preprint arXiv:2406.16784 (2024).

[6] Wang, Gaoang, Mingli Song, and Jenq-Neng Hwang. "Recent advances in embedding methods for multi-object tracking: A survey." arXiv preprint arXiv:2205.10766 (2022).

コメント