AI 기본 지식

Categorization of Self-Supervised Learning Methods for Computer Vision

study_love 2026. 1. 29. 14:36

 오늘은 computer vision에서 self-supervised learning(SSL)을 수행하는 다양한 방법들을 분류(categorization) 해보려고 한다.

Objective

 Self-supervised learning을 통해 우리가 궁극적으로 얻고 싶은 것은, 단일 이미지로부터 의미 있는 representation을 추출할 수 있는 encoder를 학습하는 것이다. 그렇다면 이러한 encoder는 어떤 방식으로 학습될 수 있는지 하나씩 살펴보자.

Methods

Computer vision에서의 self-supervised learning 방법은 크게 두 가지 계열로 나눌 수 있다.

  1. MIM (Masked Image Modeling) 계열
  2. Contrastive learning 계열

이제 각각의 방법이 어떤 아이디어를 기반으로 하고 있는지 알아보자.

Methods : MIM

MIM 방법의 대표적인 예로 MAE (Masked Autoencoder) 가 있다. 이를 중심으로 MIM의 기본 아이디어를 살펴보자.

 

MIM에서는 입력 이미지의 일부 patch를 masking한 뒤, mask되지 않은 토큰들만 ViT encoder에 입력으로 전달한다. 이후 decoder는 보이는 토큰들과 mask token을 함께 사용하여 원본 이미지를 복원하도록 학습된다. 이러한 학습 과정은 각 patch가 주변 문맥을 바탕으로 의미 있는 정보를 담도록 유도한다. 또한 모델은 반드시 원본 이미지를 정확히 재구성해야 하므로, 서로다른 이미지의 representation이 전부 동일해지는 representation collapse 문제를 자연스럽게 피할 수 있다.

Methods : Contrastive

Contrastive learning은 같은 이미지로부터 생성된 view들은 유사한 representation을 갖도록 하고, 서로 다른 이미지들은 서로 다른 representation을 갖도록 하자는 단순한 아이디어에서 출발한다. 이 계열의 방법들은 구현 방식에 따라 크게 세 가지 유형으로 나눌 수 있다.

Contrastive with Negatives

한 batch에서 N개의 서로 다른 sample을 뽑고, 각 sample에 대해 서로 다른 augmentation을 적용하여 2N개의 view를 생성한다. 이후 학습에서는

  • 같은 이미지에서 나온 두 view (positive pair)
    cosine similarity가 높아지도록 학습하고,
  • 서로 다른 이미지에서 나온 view들 (negative pair)
    cosine similarity가 낮아지도록 학습한다.

이 과정에서 같은 이미지의 representation은 자연스럽게 가까워지고, negative pair의 존재로 인해 representation collapse가 방지된다. CLIP은 이러한 구조에서 augmentation으로 이미지를 변형하는 대신, 텍스트를 대응시키는 특수한 경우로 볼 수 있다.

한편, collapse 방지가 전적으로 negative pair에 의존하기 때문에, batch size(즉, negative pair의 개수) 가 학습 성능에 매우 중요한 요소로 작용한다.

 

Dino & JEPA like 

이 계열의 방법들은 각 sample로부터 augmentation을 통해 positive pair를 생성하고, positive pair들 간의 representation을 가깝게 만드는 loss만을 사용한다는 점이 특징이다. 즉, explicit한 negative pair를 사용하지 않는다. 그럼에도 불구하고 representation collapse가 발생하지 않도록, 이 방법들은 보통 EMA (Exponential Moving Average) 기반의 teacher–student 구조predictor 모듈을 함께 사용한다.

 EMA를 사용하면 왜 collapse가 방지되는지에 대해서는 이론적으로 완전히 명쾌한 설명이 존재한다고 보기는 어렵고, 실제로는 경험적으로 매우 안정적인 학습을 제공하는 메커니즘으로 받아들여지는 경우가 많다.

전형적인 구조는 다음과 같다.

 

canonical correlation analysis 

마지막으로 살펴볼 방법은 Canonical Correlation Analysis(CCA) 계열이다. 이 방법은 다른 SSL 기법들과 비교했을 때,
구조가 단순하면서도 수학적으로 매우 우아한 접근이라고 볼 수 있다.

 먼저 N개의 이미지 sample을 뽑고,각 sample에 대해 augmentation을 적용하여 두 개의 view (a, b) 를 생성한다.
이후 두 view로부터 얻은 representation을 각각 하나의 matrix로 쌓는다.

 

이 방법의 목표는 단 하나다.

두 representation matrix 사이의 correlation matrix가 identity matrix(I)가 되도록 만드는 것

 

(단, 각 feature에 대해 batch 평균은 이미 빼져있다고 가정한다.)

 

Correlation matrix가 I가 된다는 것은 다음 두 조건을 동시에 만족한다는 뜻이다.

 

1. 대각 원소 = 1

대각 원소가 1이라는 것은, 같은 sample에서 나온 두 view (a, b)의 같은 feature 값들이 항상 같은 방향으로 변한다는 의미다.

즉,

  • a의 특정 feature 값이 평균보다 크면, b의 해당 feature 값도 평균보다 커야 하고
  • a의 feature 값이 평균보다 작으면, b의 feature 값도 평균보다 작아야 한다

그래야 두 값을 곱했을 때 양수가 되고, batch 전체에서 그 합이 크게 (1로) 유지될 수 있다. 이 조건이 모든 feature에 대해 동시에 성립해야 하므로, 결과적으로 같은 이미지에서 나온 representation들은 매우 유사해질 수밖에 없다.

 

2. 서로 다른 feature들은 서로 독립적이어야 한다 (비대각 원소 = 0)

동시에, correlation matrix의 비대각 원소들이 0이 되도록 강제된다는 것은
서로 다른 feature들 간에는 상관관계가 없어야 한다는 뜻이다.

이는 각 feature가

  • 서로 중복되지 않고
  • 각자 다른 정보, 다른 역할을 담당하도록 유도한다.

즉, representation 내부에서 feature 다양성이 자연스럽게 확보된다.

추가 : 왜 representation collapse가 발생하지 않는가

CCA 계열 방법에서 collapse가 자연스럽게 방지되는 이유는 명확하다.

만약 모든 sample의 representation이 완전히 동일하다면,

  • batch 평균을 제거한 뒤에는
  • 모든 feature 값이 0이 되어버린다.

이 경우,

  • 어떤 feature를 곱해도 결과는 0이 되고
  • correlation matrix의 대각 원소는 절대로 1이 될 수 없다

즉,

collapse된 representation은 이 objective를 절대 만족할 수 없으며,
항상 loss를 발생시키는 상태가 된다.

 

따라서 CCA 기반 방법에서는
collapse 자체가 최적해와 구조적으로 양립 불가능하다.

 

 

더 자세하게 설명할 수도 있지만, 그러면 글이 너무 길어질 것 같아서 조금 compact하게 설명했다. 만약 더 구체적인 설명을 듣고싶으면, 개인적으로 연락을 주면 zoom등을 이용해서 설명해줄 수 있다. 

 

끝~