Juni_DEV

[논문리뷰] TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding 본문

Artificial Intelligence/Paper Review

[논문리뷰] TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding

junni :p 2024. 9. 15. 23:49
반응형

https://arxiv.org/abs/2312.02051

TimeChat

이 논문은 긴 비디오 이해를 위해 특별히 설계된 TimeChat이라는 시간 민감형 다중모달 대형 언어 모델을 제안합니다. TimeChat은 두 가지 핵심 기능을 갖추고 있습니다.
첫째, Timestamp-aware frame encoder로 각 비디오 프레임의 시각적 콘텐츠와 타임스탬프를 결합합니다.
둘째, Sliding video Q-Former를 통해 다양한 길이의 비디오를 처리할 수 있도록 비디오 토큰 시퀀스를 생성합니다.
또한, TimeChat의 명령 수행 능력을 향상시키기 위해 6개의 주요 비디오 작업을 다루는 12만 5천 개의 인스턴스를 포함한 명령 튜닝 데이터셋(TimeIT)을 구축했습니다.
실험 결과, 
TimeChat은 제로샷 시간적 위치 지정과 추론에서 뛰어난 성능을 보여주었습니다.

TimeChat Architecture

TimeChat Architecture

TimeChat은 시간 인식 프레임 인코더, 슬라이딩 비디오 Q-Former, 그리고 대형 언어 모델로 구성되어 있습니다.
비디오 프레임 시퀀스와 해당 타임스탬프를 입력하면, (a) 시간 인식 프레임 인코더(Time-aware Frame Encoder)가 먼저 각 프레임의 공간적 토큰을 추출하고 프레임 수준에서 시각적 토큰과 해당 타임스탬프 설명을 결합합니다. 그 후, (b) 슬라이딩 비디오 Q-Former는 이동하는 슬라이딩 윈도우를 사용하여 프레임 토큰 간의 시간적 관계를 설정하고, 다양한 길이의 비디오 토큰을 생성합니다. 마지막으로, 비디오 토큰은 선택적으로 변환된 음성 및 사용자 쿼리와 함께 입력으로 결합되어 (c) 대형 언어 모델(LLM)에 전달되고, 적절한 응답을 생성합니다.

이전 연구에서는 비디오 프레임의 시각적 정보와 타임스탬프 정보를 따로 처리하여, 시각적 이벤트가 발생하는 정확한 시간을 캡처하는 데 한계가 있었습니다. 이를 해결하기 위해 시간 인식 프레임 인코더를 도입했습니다. 이 인코더는 프레임의 시각적 정보를 타임스탬프와 결합해 처리하며, Q-Former를 통해 시각적 토큰에 시간 정보를 결합합니다. 이는 InstructBLIP의 구조와 유사하지만, 타임스탬프에 중점을 두어 시각적 토큰을 더욱 정확하게 처리합니다.

Image Q-former

시간 인식 프레임 인코더를 적용한 후, 비디오 프레임에서 시각적 토큰을 얻습니다. 하지만 프레임 간 시간적 관계는 모델링 되지 않았으므로, 이를 해결하기 위해 슬라이딩 비디오 Q-Former를 사용합니다. 이 Q-Former는 슬라이딩 윈도우 방식을 통해 비디오 토큰을 생성하며, 이전 모델들이 고정된 수의 비디오 토큰을 사용해 시각적 정보를 손실하는 문제를 해결합니다. 슬라이딩 Q-Former는 비디오 토큰의 압축 비율을 일정하게 유지해 긴 비디오에서도 풍부한 의미를 보존하며, 계산 예산에 맞게 토큰 수를 조정할 수 있습니다.

Compression rate R′

비디오 토큰 Xv와 텍스트 쿼리 토큰 Xq를 결합해 대형 언어 모델에 입력하여 응답 Xa를 생성합니다. VidLLM 학습은 이미지/비디오-텍스트 쌍으로 모델을 사전 학습하고, 명령 데이터를 사용해 명령 수행 능력을 미세 조정하는 두 단계로 이루어집니다. 기존 오픈소스 모델의 체크포인트를 재사용하며, 명령 튜닝만 수행합니다. LoRA를 사용해 모델을 효율적으로 미세 조정합니다.

Instruction Data TimeIT

TimeIT

TimeIT은 6가지 주요 타임스탬프 관련 비디오 작업을 포함합니다:
(1) dense video captioning, (2) temporal video grounding, (3) step localization and captioning, (4) video summarization, (5) video highlight detection (6) transcribed speech generation
이 작업들은 다양한 도메인에서 추출된 12개의 데이터셋과 통합되어 있습니다(위 그림 참고). 이 데이터셋은 실제 응용 프로그램에서 AI 어시스턴트와 상호작용할 때 사용자들이 자주 요청하는 비디오 타임스탬프와 관련된 요구를 수용합니다.

데이터 구성 방법

  1. 명령 작성
    각 작업에 대해 수동으로 작성된 명령을 기반으로, GPT-4를 사용해 표현을 확장한 후, LLM이 생성한 명령을 수동으로 선택하고 정제하여 최종 버전을 얻습니다. 작업당 6개의 고품질 명령을 생성했습니다.
  2. 답변 형식화
     작성된 명령을 바탕으로, 작업 출력을 자연어 응답 형식으로 변환합니다. TimeIT 데이터의 전반적인 품질은 수동으로 수집된 데이터셋 덕분에 보장됩니다.


Experiments

 

 

https://arxiv.org/abs/2312.02051

 

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding

This work proposes TimeChat, a time-sensitive multimodal large language model specifically designed for long video understanding. Our model incorporates two key architectural contributions: (1) a timestamp-aware frame encoder that binds visual content with

arxiv.org

https://github.com/RenShuhuai-Andy/TimeChat

 

GitHub - RenShuhuai-Andy/TimeChat: [CVPR 2024] TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Underst

[CVPR 2024] TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding - RenShuhuai-Andy/TimeChat

github.com

반응형

'Artificial Intelligence > Paper Review' 카테고리의 다른 글

[CNN, Tensorflow] LeNet-5 구현하기  (2) 2022.09.21
[CNN, Pytorch] LeNet-5 구현하기  (1) 2022.09.21
Comments