참신한 아이디어만으로 논문이 될 수 있을까?
나도 그랬고, 많은 초보 연구자들이 비슷한 생각을 한 번쯤은 한다. “아이디어가 충분히 참신하다면, 성능이 조금 부족해도 인정받을 수 있지 않을까?” 물론 정말로 패러다임을 바꾸는 수준의 혁신이라면 예외가 있을 수 있다. 하지만 대부분의 경우, 학계에서 아이디어는 novelty만으로 평가되지 않는다. 좋은 아이디어는 그 참신함뿐 아니라 수치로 증명되어야 한다. 논문은 아이디어를 설명하는 문서지만, 동시에 성능을 통해 설득하는 문서이기도 하다.
아이디어를 너무 빨리 버리는 실수를 하지 마라
이 사실을 알게 되면, 또 다른 극단으로 가기 쉽다. “내가 생각한 novel한 아이디어를 실험해봤는데 SOTA보다 성능이 안 나온다.
그럼 이 아이디어는 별로인가 보다.” 그리고 우리는 그 아이디어를 너무 빨리 버린다. 하지만 여기서 하나 간과한 것이 있다. 현재 SOTA 모델들은 단순히 좋은 architecture만으로 만들어진 결과가 아니다.
그 안에는:
- 최적화된 decoder layer 개수 (보통 fair comparison을 해치지 않게 원래 모델들보다 적거나 같은 개수의 layer를 쓰긴 함)
- 적절한 embedding dimension (보통 fair comparison을 해치지 않게 원래 모델들보다 작은 dim을 쓰긴 함)
- 데이터 처리와 augmentation 튜닝
같은 디테일한 engineering이 축적되어 있다.
논문에 적힌 수치는 “그 구조를 대충 돌렸을 때의 성능”이 아니라, “그 구조에서 가능한 최적의 세팅을 찾았을 때의 성능”이다.
그런데 우리는? 겨우 한두 개의 setting으로 실험해보고, SOTA보다 낮다고 해서 아이디어 자체를 부정해버린다.
물론 모든 아이디어가 성공할 수는 없다.
하지만 최소한 이렇게는 물어봐야 한다.
- 세팅의 최적화를 충분히 시도했는가?
SOTA를 이긴다는 것은
“아이디어 하나를 이긴다”는 뜻이 아니라,
“그 아이디어 + 그 위에 쌓인 engineering 전체를 이긴다”는 뜻이다.
그걸 단 한 번의 실험으로 판단하는 건,
너무 성급한 결론일 수 있다.
Example : Crop MAE

예를 들어, CropMAE 논문을 보면 engineering의 중요성을 분명하게 확인할 수 있다. 이 논문은 image encoder를 위한 self-supervised learning 방법으로, 하나의 이미지를 crop한 뒤, crop한 image에 대해서 recon task를 푸는데, 98.5%라는 극단적인 masking ratio를 적용한다. 그리고 1.5%의 visible patch와 mask token을 query로 사용하고, crop하기 전의 원본 이미지의 모든 patch를 key와 value로 활용해 cropped image를 복원하는 pretext task를 설계한다. 아이디어 자체도 흥미롭지만, 이 논문을 더 설득력 있게 만드는 것은 그 뒤에 숨겨진 engineering 디테일을 통한 SOTA 성능이다.

1. Mask Ratio
CropMAE의 기본 mask ratio는 98.5%다.
그런데 논문에 제시된 ablation 결과를 보면,
- 95%로 낮추면 성능이 약 9% 가까이 하락하고
- 99%로 올려도 약 2% 정도 떨어진다
이 단순한 hyperparameter 튜닝이, 실제로는 매우 큰 성능 격차를 만들어낸다. mask ratio 하나만 바뀌어도 모델의 표현 학습 특성이 완전히 달라질 수 있다는 것이다. 그리고 최적의 지점을 찾는 과정이 없었다면, 이 논문의 성능은 지금과 전혀 다른 모습이었을 가능성이 높다.
2. Crop Strategy
기존의 DINO 계열 방법들은 보통 local view를 보고 global view를 맞추는 전략을 사용했다.
하지만 CropMAE에서는 반대로 global을 보고 local을 복원하는 전략이 가장 좋은 성능을 보인다.
이 지점이 중요하다. 다른 논문에서 잘 작동했던 세팅을 참고하는 것은 분명 좋은 태도다.
그러나 그 설정을 그대로 답습한다고 해서 항상 최적이 되는 것은 아니다.
아이디어가 바뀌면, 최적의 engineering 세팅도 함께 바뀐다.
3. Decoder Embed Dimension과 Depth
논문 표를 보면 decoder embedding dimension을 256으로 설정했을 때
가장 좋은 성능이 나온다. 이 값이 달라지면 성능이 최대 2% 가까이 차이 난다.
Decoder depth 역시 마찬가지다. 이는 단순히 “부가적인 세팅”이 아니라,
모델의 표현 학습 특성과 직접적으로 연결된 요소임을 보여준다.
참고하면 좋은 것은, Decoder Embed Dim과 depth같은 경우는 보통 fair comparision을 위해서 원본 모델들보다 더 적은 경우만 허용한다.
Conclusion
만약 이런 세밀한 engineering 과정이 없었다면
CropMAE는 지금의 성능을 얻을 수 있었을까?
아마 그렇지 않았을 가능성이 크다.
아이디어는 출발점이지만,
그 아이디어를 빛나게 만드는 것은
끝까지 파고드는 디테일이다.
우리는 종종 architecture diagram에만 집중하고,
표 아래에 숨어 있는 수많은 hyperparameter 조정과 실험 과정을 가볍게 넘긴다.
하지만 실제로 성능을 만드는 것은
그 집요한 과정이다.
좋은 아이디어를 과소평가하지 않기 위해서라도,
우리는 그 아이디어에 걸맞은 engineering을 해줘야 한다.
'잡설' 카테고리의 다른 글
| 연구 생산성을 미친듯이 올려주는 도구 : Claude Code (0) | 2026.03.03 |
|---|---|
| 사회생활에서 상사를 위한 skill : 웹을 활용하라 (0) | 2026.03.03 |
| 연구 관련 advice들 정리 (0) | 2026.02.15 |
| 연구자를 위한 블로그 추천 : 김기섭 교수님의 블로그 (0) | 2026.02.09 |
| 막막하기만 했던 연구가 미친듯이 재밌어진 건에 대하여 (0) | 2026.01.12 |