해당 연구는 기존 멀티 모달 대형 언어 모델(MLLMs)이 시각 정보를 수동적으로만 처리하는 언어 중심적 편향의 한계를 극복하고, 복잡한 임상 현장에서 요구하는 고도의 멀티 모달 추론 역량을 갖추기 위해 기획되었습니다.구체적으로는 K-BDS의 초고성능 8gpu(A100) 분산 학습 인프라를 활용하여 멀티 모달리티 영역에 강화학습(RL)을 도입하는 훈련 방법론적 패러다임 전환을 모색합니다. 이를 위해 먼저 범용 멀티모달 데이터(DeepVision-103K)를 활용해 검증 가능한 보상 기반 강화학습(RLVR) 파이프라인을 확립하여 기초적인 시각 인지 및 논리적 수학/과학 추론 능력을 극대화합니다. 이후, 자유 형식의 임상 질의응답 데이터(medix-rl-data)와 LLM 심판(LLM-as-a-judge)을 활용한 다층적 복합 보상 체계를 적용해 의료 도메인에 특화된 개방형 추론(Open-ended reasoning) 능력을 고도화합니다.최종적으로 글로벌 최고 권위의 의료 멀티 모달 벤치마크를 통해 훈련된 모델의 성능을 정량적으로 검증할 예정입니다. 또한, 과제 종료 후 학습 파이프라인 코드, 데이터, 모델 가중치 등 전체 연구 산출물을 K-BDS 마켓플레이스에 전면 기탁하여 국내 헬스케어 AI 산업의 연구 비용을 절감하고 오픈 사이언스 생태계에 기여할 계획입니다.