이석민의 공부일기

Promising field : Memory System with VLA

요즘 다음 연구 방향으로 VLA 기반 Memory System을 진지하게 고민하고 있다. 최근 들어 관련 벤치마크들이 하나둘 등장하고 있고, 기존 baseline들의 성능도 아직 낮은 수준에 머물러 있다. 이는 곧, 이 분야가 충분히 개척되지 않았고 새로운 접근이 성과로 이어질 가능성이 크다는 의미로 보인다. long-horizon task를 생각해보면, 로봇이 단순히 현재 observation만으로 의사결정을 내리는 것은 근본적인 한계가 있다. 예를 들어, 사람이 먼저 빨래를 개는 시범을 보여주고 이를 로봇이 따라하는 상황을 가정해보면, 현재 시점의 정보만으로는 작업을 수행하기 어렵다. 이러한 문제를 해결하기 위해서는 과거의 상태와 행동을 지속적으로 축적하고 활용할 수 있는 temporal memory..

AI 논문리뷰 - Vision for Robotics 2026.03.27

How to Avoid Overfitting When Using Pre-trained Vision Encoders in IL/RL

Introduction 오늘은 Pre-trained vision encoder를 사용하는 robotic agent를 imitation learning (IL)이나 reinforcement learning (RL)으로 훈련시킬 때 주의할 점에 대해서 서술해보고자 한다. Agent를 imitation learning (IL)이나 reinforcement learning (RL)으로 학습할 때, encoder까지 함께 fine-tuning하는 경우, 데이터가 제한된 환경에서는 overfitting 문제가 쉽게 발생한다. 이는 로봇 학습에 사용되는 데이터가 대규모 사전학습 데이터셋과 달리 특정 환경, task, 그리고 camera viewpoint에 편향되어 있기 때문이다. 그 결과, encoder는 원래 다양..

AI 논문리뷰 - Vision for Robotics 2026.03.26

What is the standard approach for using a pre-trained vision encoder as input to a policy network?

Introduction 오늘은 최근 내가 가장 흥미롭게 고민하고 있는 문제를 다루고자 한다. 핵심 질문은 로봇의 policy network에 시각 정보를 어떻게 제공하는 것이 사실상의 표준적인(go-to) 해결책인가에 대한 것이다. 만약 계산 자원과 시간에 제약이 없다면, 최근의 Vision-Language-Action (VLA) 접근에서처럼 DINOv2와 같은 사전학습된 비전 인코더의 patch-level representation을 별도의 압축 없이 그대로 사용하는 방식이 사실상의 go-to solution으로 자리잡고 있다. 하지만 현실적인 환경에서는 계산량과 추론 시간이 중요한 제약으로 작용한다. 그렇다면 이러한 제약이 존재하는 상황에서의 go-to solution은 무엇일까? 연구에서는 종..

AI 논문리뷰 - Vision for Robotics 2026.03.26

2026-03-23 : 엔지니어링 진짜 중요하다ㅋㅋ mask ratio 95%가 압도적으로 잘하네

보호되어 있는 글입니다.

연구노트 2026.03.23

2026-03-12 : 최종 성능표

보호되어 있는 글입니다.

연구노트 2026.03.12

좋은 연구자가 되는 하나의 방법 : 대가들의 철학 배우기 -> 나만의 철학 만들기

요즘 AI 분야의 큰 흐름을 보면, 많은 연구자들이 궁극적으로 풀고 싶어 하는 문제는 **AGI(Artificial General Intelligence)**다.최근 대형 언어 모델(LLM)의 등장으로 AI는 놀라운 수준의 능력을 보여주고 있지만, 여전히 한 가지 근본적인 한계가 있다. 바로 물리적 세계와의 상호작용이다. LLM은 텍스트 기반 지식과 추론에서는 강력하지만, 현실 세계에서 직접 보고 판단하며 행동하는 능력은 아직 제한적이다. 그래서 최근에는 Physical AI, 즉 현실 세계에서 지각하고 이해하고 행동할 수 있는 AI가 AGI로 가는 핵심 방향으로 주목받고 있다. 이러한 흐름 속에서, 로봇을 위한 Vision-Language-Action(VLA) 모델 연구도 빠르게 발전하고 있다. Phy..

잡설 2026.03.06

연구 생산성을 미친듯이 올려주는 도구 : Claude Code

프로젝트 폴더 단위로 AI가 이해하고, 코드를 짜주는 서비스가 있으면 엄청 편하겠다는 생각을 항상 하고 있었다. 그걸 실현시켜주는게 바로 Claude Code이다. 설명은 아래 블로그에서 너무 잘 해주셔서 내가 더 이상 할 것이 딱히 없다. 강추!!!!!!!! 돈값 진짜 제대로 한다. https://blog.highoutputclub.com/2026-claude-code-for-non-developers/ 2026 클로드 코드(Claude Code) 사용법 : 설치부터 실전 활용까지비개발자를 위한 클로드 코드(Claude Code) 실전 플레이북. 터미널 설치부터 실제 업무 자동화까지, “이걸로 뭘 할 수 있는지”에 집중해 정리했습니다. 일단 실행해보고, 시켜보고, 결과를 만드는blog.highoutpu..

잡설 2026.03.03

사회생활에서 상사를 위한 skill : 웹을 활용하라

가끔 컴퓨터공학자로서 이런 요청을 받는다.Benchmark는 고정되어 있고, 여러 model을 비교해보고 싶다Model은 고정되어 있고, 여러 dataset에서 성능을 보고 싶다연구를 하다 보면 너무나 자연스러운 요구다.내가 하던 방식처음에는 이렇게 대응했다.환경 설정 방법 정리필요한 dependency 명시실행 명령어 정리seed, 옵션, config 설명결과 해석 방법 설명그리고 문서로 정리해서 전달했다.나쁘지 않았다. 하지만 비효율적이다.더 좋은 방식 같은 팀이라면 보통 단독망(로컬 네트워크) 으로 연결되어 있다. 그렇다면 굳이 상대방이 환경을 다시 세팅할 필요가 있을까?내가 이미 잘 세팅된 환경을 가지고 있다면? 내 PC를 서버로 두고,웹 기반 인터페이스를 만들어상사는 브라우저로 접속하게 한다...

잡설 2026.03.03

연구 교훈 : 끈질긴 Engineering 없이는 좋은 아이디어도 과소평가된다.

참신한 아이디어만으로 논문이 될 수 있을까? 나도 그랬고, 많은 초보 연구자들이 비슷한 생각을 한 번쯤은 한다. “아이디어가 충분히 참신하다면, 성능이 조금 부족해도 인정받을 수 있지 않을까?” 물론 정말로 패러다임을 바꾸는 수준의 혁신이라면 예외가 있을 수 있다. 하지만 대부분의 경우, 학계에서 아이디어는 novelty만으로 평가되지 않는다. 좋은 아이디어는 그 참신함뿐 아니라 수치로 증명되어야 한다. 논문은 아이디어를 설명하는 문서지만, 동시에 성능을 통해 설득하는 문서이기도 하다.아이디어를 너무 빨리 버리는 실수를 하지 마라 이 사실을 알게 되면, 또 다른 극단으로 가기 쉽다. “내가 생각한 novel한 아이디어를 실험해봤는데 SOTA보다 성능이 안 나온다.그럼 이 아이디어는 별로인가 보다.” 그..

잡설 2026.03.03

2026-02-28 : CVPR workshop까지 해야할 일 정리

보호되어 있는 글입니다.

연구노트 2026.02.28

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

이석민의 공부일기

전체 글 119

티스토리툴바