inblog logo
|
kjyong

    Adaptive Keyframe Sampling for Long Video Understanding

    바세린용자 (yongja)'s avatar
    바세린용자 (yongja)
    Jun 21, 2026
    Adaptive Keyframe Sampling for Long Video Understanding
    Contents
    배경Method실험
     

    배경

    • 비디오가 길어지면 llm context에 한계가 생김
    • 그래서 비디오에서 일부 프레임만 샘플링하는 기법 사용
    • 하지만 기존에는 랜덤 샘플링을 사용함 → 랜덤 추출 → 오답이 됨
    notion image
     

    Method

    Principles of Keyframe Selection

    • 풀 수 없는 이상적 목표
      • notion image
      • G: 모델의 output에 대한 confidence
      • 하지만 가능한 F의 조합이 너무 많고, 그 프레임으로 정답을 맞췄다고 그게 완벽한 프레임이라는 보장은 없다
    • 휴리스틱한 접근
      • notion image
      • s(Q,Ft): 프롬프트 Q와 프레임 Ft의 관련성 (relevance)
        • llm을 사용하기엔 비용이 너무 커서 CLIP, BLIP 등을 활용
      • c(I): 커버리지. 선택된 키프레임 집합이 비디오 전체의 유용한 정보를 얼마나 골고루 커버하는가. 만약 중복 프레임이라면 뽑히지 않아야 함.
        • 기본적으로 샘플링된 프레임이 시간축에 고르게 퍼져야함
          • Ripley K-function
            • 어떤 거리 r을 정하고 서로 거리 r에 안으로 들어오는 점의 쌍이 몇 개냐 < 이렇게 정량화 함
          • Ripley K-function를 binning으로 단순화
            • → Adaptive Keyframe Sampling

    Adaptive Keyframe Sampling

    • 양 극단의 케이스
      • notion image
      • 기존 식에서,
        • 만약 람다가 0이면 프롬프트와 일치도가 가장 높은 프레임만 뽑음
          • notion image
          • 점수 높은 프레임들이 한 구간에 몰려있으면, 거기에서만 키프레임이 뽑혀서 다른 프레임의 정보들을 놓칠 수 있음
        • 만약 람다가 Inf면 커버리지만 신경쓰게 됨 (s()는 무시)
          • 그럼 기존 방식인 유니폼 샘플링과 똑같게 됨
    • ADA (adaptive sampling)
      • 람다가 0~inf 사이의 적절한 값이어야 함
      • hierarchical optimization
        • notion image
        • 계층적으로 전체 프레임을 쪼개며 진행
        • judge: 각 레벨에서 아래 점수를 구함
          • s_all: 현재 구간 모든 프레임의 평균 점수
          • s_top : 현재 구간에서 점수 상위 M개 프레임의 평균 점수
          • notion image
          • 만약 s_top - s_all이 일정 threshold를 넘으면 그 구간에 핵십 프레임이 있다 생각하고 top M개의 프레임 반환
          • 만약 s_top - s_all의 차이가 크지 않다면 고만고만한 점수로 보고 split → judge 반복

    실험

    • 평가도구: LMMs-Eval
    • 데이터셋: LongVideoBench(LVB), VideoMME(V-MME)
      • 비디오 길이가 1시간을 넘는다고 함
    • 실험 원칙
      • llm 학습시키지 않음. 오직 키프레임 샘플링 알고리즘만 평가하기 위하여
      • 자막 안 씀. 순수 시각으로 평가하기 위해서
    • baseline mllm
      • Qwen2VL
      • LLaVA-OV
      • LLaVA-Video
        • 가장 강한 baseline(SigLIP 인코더 + Qwen2-7B LLM, 최대 64프레임)
    • BLIP 이용하여 프롬프트-프레임 유사도 구함
    notion image
    • 어떤 모델이든 aks를 붙인게 성능이 올라감
    • aks 붙인 작은 모델이 유료모델 뛰어 넘기도 함
     
    notion image
     
    notion image
    • sampling 전략
      • uni
        • 유니폼 샘플링 (s 점수 안 봄)
      • top
        • split 하지 않고 전체 비디오를 통으로 본 후 top m뽑음
      • bin
        • 최고 깊이까지 split하고 각 bin에서 top 뽑음
      • ada
        • s_threshold에 따라 split and judge 적절히
    • ADA 전략이 가장 효과 좋음
    • 벤치마크 데이터셋의 질문에 따라 TOP, BIN 전략 중에 하나가 더 맞을 수도 있음
      • 예를 들어 VideoMME는 “몇 번 일어나냐” 질문이면 유니폼 샘플링(bin)이 top 보다 어울림
      • longvideobench: “특정 시점에 뭘 하냐”면 top이 어울림
      • ADA: 어떤 질문 형식이든 adaptive하게 적용될 수 있음
        • notion image
        • 똑같은 비디오라도 질문에 따라 ADA는 다른 프레임 조합을 선택함
          • notion image
    notion image
    • 프레임 선택 비율을 줄여도 0.25까지는 성능 하락이 크게 없다
    notion image
    • BLIP은 LongVideoBench에서, CLIP은 VideoMME에서 더 좋음
      • CLIP은 일반 image-text 쌍으로 학습 → 전역적 인식에 강함
      • BLIP은 object-level 데이터로 학습 → 객체 중심 질문에 강함
    notion image
    • LongVideoBench은 작은 s_threshold를, VMME는 큰 s_threshold가 맞음
      • LongVideoBench은 핵심 정보가 집중되어있고, VMME는 분산되어 있어서
    notion image
    • 그냥 키프레임 추출 말고, “비디오 묘사” 등 다른 Task에 적용해도 잘 된다.
    Share article
    Contents
    배경Method실험

    kjyong

    RSS·Powered by Inblog