일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- multimodal machine learning
- long video understanding
- leetcode
- Server
- transference
- 코딩테스트
- Kaggle
- Anaconda
- Linux
- autogluon
- ma-lmm
- Github
- error
- quantification
- hackerrank
- jmeter
- MySQL
- CNN
- tensorflow
- Artificial Intelligence
- 용어
- memory bank
- timechat
- q-former
- sliding video q-former
- 백준
- timestamp-aware frame encoder
- Python
- LeNet-5
- secure-file-priv
Archives
- Today
- Total
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- multimodal machine learning
- long video understanding
- leetcode
- Server
- transference
- 코딩테스트
- Kaggle
- Anaconda
- Linux
- autogluon
- ma-lmm
- Github
- error
- quantification
- hackerrank
- jmeter
- MySQL
- CNN
- tensorflow
- Artificial Intelligence
- 용어
- memory bank
- timechat
- q-former
- sliding video q-former
- 백준
- timestamp-aware frame encoder
- Python
- LeNet-5
- secure-file-priv
Archives
- Today
- Total
목록2024/09/15 (1)
Juni_DEV
[논문리뷰] TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding
https://arxiv.org/abs/2312.02051이 논문은 긴 비디오 이해를 위해 특별히 설계된 TimeChat이라는 시간 민감형 다중모달 대형 언어 모델을 제안합니다. TimeChat은 두 가지 핵심 기능을 갖추고 있습니다. 첫째, Timestamp-aware frame encoder로 각 비디오 프레임의 시각적 콘텐츠와 타임스탬프를 결합합니다. 둘째, Sliding video Q-Former를 통해 다양한 길이의 비디오를 처리할 수 있도록 비디오 토큰 시퀀스를 생성합니다.또한, TimeChat의 명령 수행 능력을 향상시키기 위해 6개의 주요 비디오 작업을 다루는 12만 5천 개의 인스턴스를 포함한 명령 튜닝 데이터셋(TimeIT)을 구축했습니다.실험 결과, TimeChat은 제로샷 시간적 위..
Artificial Intelligence/Paper Review
2024. 9. 15. 23:49