이제 모두가 ChatGPT와 같은 거대언어모델(large language model, LLM)에 대해 이야기한다. 일상의 일부가 되어가는 것은 물론이고, 모든 학술 연구의 판도를 바꾸고 있다는 것 역시 이미 잘 알려진 이야기다. 또한 거대언어모델의 부상은 컴퓨터 비전(computer vision, CV) 분야의 트렌드도 바꾸었다. '언어'모델이 '비전'에 적용되고 있는 이유는 "Attention is all you need"[1]에서 제안한 '트랜스포머(transformer)' 의 “attention” 메커니즘이 데이터 내의 맥락을 파악하는 데 유리하기 때문이다. 맥락을 파악할 수 있는 기능은 기계 번역(machine translation)을 위해 개발되었지만 이미지 분석에도 유용하게 사용될 수 있다.
한 가지 예시로 이미지의 특징점 매칭(keypoint matching)을 수행하는 모델인 'LightGlue'[2]가 있다. 특징점 매칭은 직관적으로 설명하면 '같은 장소에서 카메라를 움직이고, 돌리고, 확대·축소해 가며 찍은 여러 장의 이미지에서 똑같은 물체를 찾아내기' 위한 기법으로, 완전히 CV의 영역에 있는 과제이다. 특징점 매칭은 의료에서도 이미지 시리즈(serial images) 분석에 유용한 기법이기도 하다. 예를 들어 하나의 검체에서 얻은 여러 장의 병리 슬라이드를 정렬하는 데에 활용될 수 있다.[3] 그리고 LightGlue의 핵심 구조(backbone)는 트랜스포머이다. CV의 다른 과제에서도 비슷한 사례는 얼마든지 찾아볼 수 있다.
의료 인공지능의 최근 동향도 LLM이 주도하는 큰 흐름을 따라가고 있는 것으로 보인다.[4] 많은 연구자들이 자연어 처리(natural language processing, NLP)에 관심을 가지고 있으며, 많은 연구실에서 거금을 들여 GPU 클러스터를 구축하고 트랜스포머로 무엇이든 해보려 한다. 전통 강자인 CNN 기반의 모델을 이용한 의료 이미지 분석에 주력하는 그룹도 적지 않지만, 난도 높은 문제를 풀려면 트랜스포머 구조를 떠올리게 되는 것은 마찬가지다. 게다가 의료 이미지 분석은 이미 성능이 충분히 높아져서 추가적인 기술적 도약은 어렵다는 의견도 적지 않게 들려온다.
그러나 의료 이미지 분석 AI로 해결할 문제들은 여전히 남아 있다. 이 중에는 임상 현장에 보급하기 위한 과정도 있지만, '추가적인 기술적 도약'도 있다.
이제 의료 인공지능에서 이미지 분석은 기술적 발전보다 신뢰성 검증, 규제 기관 통과, 사업화 등이 더욱 중요한 시기가 되었다. 임상의사가 언어 모델을 만족스럽게 사용하려면 아직 기술적으로도 갈 길이 먼 것과는 대비된다. 단적인 예시로, 이미지 기반 진단 보조 분야에서 잘 알려진 국내 기업 '루닛'과 '뷰노'의 제품 홍보 페이지를 보면,[5][6] 허가·인증에 대한 정보가 가장 상단에 제시되어, 성능 이상으로 강조되어 있다. 이는 높은 정확성은 이제는 당연해졌기 때문이라 해석할 수 있다.
규제에 대한 세부사항은 이제 의료 인공지능의 기술적 발전사 전체에 버금가는 거대한 영역이 되었다. 그러나 신뢰성 검증과 관련하여 여기에서 짚고 넘어갈 만한 두 가지 토픽이 있다. '설명 가능한 인공지능 (explainable AI, XAI)' 그리고 무작위 대조군 연구(randomized controlled trial, RCT)이다.
XAI는 사용자가 머신러닝(machine learning, ML) 알고리즘이 출력한 결과를 이해하고, 신뢰할 수 있게 하는 방법이다.[7] 초기의 딥러닝(deep learning, DL) 모델, 특히 CNN(convolutional neural networks) 기반의 CV 모델 대부분은, 입력에서 출력이 되는 과정을 직관적으로 알 수 없는 '블랙박스'로 작동했다. 이는 특히 의료, 금융, 법률 등의 분야에서 문제가 되었으며, 대략 2010년대 후반부터는 관련 정부 부처에서 설명 가능성을 의식하기 시작했다.[8] 미국의 FDA, 유럽의 EMA, 한국의 MFDS 등[9] 의약품·의료기기 규제 기관에서는 현재 AI의 설명 가능성을 심사의 한 기준으로 삼고 있다. 이들 기관에서는 '설명 가능성'을 좀 더 간결하게 '투명성'이라 표현하기도 하며, 투명성이 부족한 AI는 신뢰하기 어렵다는 입장을 일관적으로 보여주고 있다.[10][11]
의료 인공지능에서 XAI는 규제 통과는 물론 인간 의료진과 AI 솔루션의 협업을 위해서도 중요하다. 현재 의료 이미지 분석의 대표적인 활용 목적은 진단 보조이며, 이 도구들은 당연하게도 어느 정도 투명성이 있어야 모든 의료진이 신뢰할 수 있을 것이다. AI 연구에 직접 관여해 본 적이 없는 의료진도 쉽게 이해할 수 있으면 더욱 좋다. 누구나 한눈에 알아볼 수 있는 대표적인 XAI 기법으로는 Grad-CAM(gradient-weighted class activation mapping)이 있다.[12] CNN 기반 모델이 예측(prediction)을 할 때 이미지의 어느 부분에 주목했는지를 픽셀 단위의 히트맵(heatmap)으로 보여주는 방식이다. Grad-CAM은 의료 이미지 분석에서 현재 가장 널리 사용되고 있는 설명 방법이며,[13][14] 또 다른 주목할 만한 기법으로 'Occlusion'도 있다. 이미지의 일부를 가린 채 다시 예측 결과를 출력하여 기존 결과와 비교하면, 가려 놓은 부분이 원래의 예측에 어느 정도로 중요했는지를 알 수 있다는 원리다.[15]
그림 1. Grad-CAM으로 시각화한 뇌종양 탐지 모델[16]
XAI는 모델이 오진한 사례를 분석하고 학습 데이터 편향을 교정하는 것에도 유용하다. 또한 의료 인공지능 분야에서 '교육용 AI'[17]도 꾸준히 탐구되고 있는 만큼 설명 가능성은 앞으로도 점점 더 중요해질 것이다. 어느 정도 숙련된 임상의가 주로 사용하게 되는 진단 보조 도구와 달리, 교육 도구는 아직 임상 경험이 거의 없는 의과대학생도 대상이 되는 만큼, 말 그대로 '모델이 사람을 학습시키기' 때문이다.
현재 규제기관에서 의료 인공지능에 대한 RCT를 필수로 요구하고 있지는 않다[18] 그러나 AI가 높은 정확도를 보인다고 하더라도, 또 다른 차원의 문제인 임상적 결과를 평가하기 위해, RCT는 필요하다. 병원에서의 결과는 AUROC(area under receiver operating characteristic curve) 점수가 아니라 결국 사망률, 생존률, 재발률, 입원일수 등일 것이며,[19] 이는 후향적 연구로도 조사할 수는 있지만, 결국 RCT로 가장 정확하게 알 수 있다. RCT는 또한 다양한 인종과 지역에 수행된다면 의료 인공지능의 형평성(equity) 문제 해결에도 도움이 될 수 있다.
이미 개발된 이미지 분석 모델의 투명성을 높이고 임상시험을 하는 것을 넘어서, 전에 없던 모델을 개발할 여지는 없는 것일까? 지금도 몇 가지 새로운 과제가 존재한다. 그 중 한 가지 토픽으로 '기회진단(opportunistic screening)'을 들 수 있다. 예를 들어 심초음파 영상으로부터 원래의 검사 이유와는 무관했던 만성 간 질환을 우연히 발견하는 식이다.[20] CV 알고리즘은 인간 의료진도 볼 수 없었던 의외의 특징(feature)을 검출하는 경우가 있기 때문에 가능한 접근이다. 그 외에도 기관 간 일반화(generalization), 지도 학습(supervised learning)을 위한 라벨링(labeling, annotation), 컴퓨팅 자원의 효율적 사용 등의 오래된 문제들 역시 당분간은 알고리즘의 개선으로 좀 더 풀어갈 필요가 있는 숙제가 될 것이다.
그러나 좀 더 본격적인 기술적 도약을 위해서는 아무리 CV에 관심이 많더라도 LLM에 대해서도 깊이 이해해야 하는 시대가 되어가고 있는 것은 사실이다. LLM의 발전 과정에서 등장한 진보된 알고리즘을 이미지 분석에 적용할 수 있기 때문이다. 뿐만 아니라 언어 모델 자체 또는 그 산출물을 이미지 분석과 융합하는 방향도 점점 더 조명받고 있다.
CV의 한 가지 중요한 기술적 돌파구로, 전통적인 CNN이 아닌 새로운 architecture를 사용하려는 시도가 이루어지고 있다. 이 중 최근 LLM이 착안하고 있는 transformer architecture를 적용하려는 시도가 Google, Microsoft등에서 지속적으로 이루어지고 있다.[21][22] Transformer architecture를 CV에 사용하고자 하는 이유는 2가지이다. 첫 번째로 transformer는 압도적으로 확장성 (scalability)이 좋기 때문에 대규모 데이터에 대한 학습과 일반화 성능이 뛰어나다. 둘째, 데이터 내 장기 의존성 (long-term dependency)을 파악할 수 있기 때문이다. 이외에도 NLP를 위하여 개발된 생태계(e.g. pre-trained model, 라이브러리, ASIC 칩)를 CV에 그대로 적용할 수 있다는 장점이 있을 것이다.
하지만 트랜스포머는 귀납적 편향(inductive bias) 측면에서는 CNN보다 불리한 면이 있다. CNN은 이미지의 평행 이동에 대한 등변성(equivariance), 2차원 구조의 보존, 그리고 다양한 스케일의 특징 분리(scale separation) 등에 강점을 가지지만, 트랜스포머는 이러한 성질을 기본적으로 갖추고 있지 않다. 더불어, 기본적인 트랜스포머의 self-attention은 계산 복잡도가 입력 길이의 제곱에 비례하기 때문에, 수많은 픽셀로 구성된 높은 해상도의 이미지 (~Gb 단위의 병리학 조직 슬라이드가 하나의 예시가 될 수 있겠다) 를 처리하기에는 비효율적일 수 있다. 이러한 한계점을 극복하기 위해서 이미지의 기하학적 특징을 반영하거나 계산 복잡도를 줄이는 다양한 변형 transformer 구조가 등장하고 있다.
Google Research에서는 자연어 분석에 사용되는 architecture를 CV에 적용할 수 있는 가능성을 최초로 포착하여 Vision Transformer (ViT)를 제안했다.[23] ViT에서는 이미지가 일정 픽셀의 “패치(patch)” 형태로 나뉘어져서 각 “패치”가 NLP에서 하나의 token과 대응하여 입력으로 사용된다. 이후 각 패치에서 선형 임베딩을 적용하고, positioning embedding을 더하여 트랜스포머에 입력한다. (그림 2 참조) 해당 모델은 데이터의 양이 상대적으로 적은 특화된 데이터셋에서는 CNN을 underperform한다. 하지만 ViT는 ChatGPT와 같이 높은 확장성을 지니고 있어 충분히 큰 데이터셋이 있는 경우 CNN을 압도한다. Google Research 팀에서는 ViT를 large scale dataset에서 pre-training을 시행한 이후, transfer learning을 하는 패러다임을 제시한다.
그림 2. Vision Transformer의 구조
한편 Microsoft Research에서는 ViT를 변주하여 Swin (Sliding Window) Transformer를 제시한다.[24] Swin Transformer는 ViT가 직면한 2가지 문제를 해결하기 위해서 만들어졌다. 첫 번째는 ViT는 각 패치 내에서는 단순한 선형 투영(linear projection)을 가하기 때문에 국소적인 이미지 특징을 반영하기에는 불리하다. 두 번째로, ViT는 각 패치를 1차원적으로 나열해 2차원적인 이미지의 특징을 반영하기가 어렵다. 이러한 문제점을 해결하기 위해서 Swin Transformer는 작은” 패치에서 시작하여 순차적으로 2차원적으로 인접한 주위 패치와 융합하는 방식의 계층적인 architecture를 채택한다. 이러한 방식을 통해 초기에는 국소적인 특징, 깊은 layer에서는 전역적인 특징을 반영할 수 있다. 나아가 같은 “규모”의 패치 내에서는 패치를 평행 이동(sliding window)하면서 CNN과 같은 기하적 등변성을 반영할 수 있도록 하였다.
그림 3. Swin Transformer와 ViT의 비교
이러한 CV의 발전은 의료 이미지 분석, 특히 이미지의 분류 (classification), 분할 (segmentation)에 응용이 이루어지고 있다. 이를 바탕으로 조직 이미지로 악성 종양과 양성 종양을 감별하거나, 폐의 X-ray 이미지로 COVID-19와 다른 감염원을 감별할 수 있는 ViT와 Swin Transformer가 개발되고 있다.[25] 한편, 해당 architecture는 어디에 모델이 가중치를 부여하고 분석을 하였는지 attention에 대한 heat map을 추출할 수 있기 때문에 영상 이미지 진단의 설명 가능성 (explainability)에도 변화를 가지고 올 수 있을 것이라고 기대된다.[26]
수년간 GPT, PaLM, Claude, LLaMA 등의 대규모 언어 모델(LLM)은 인간 수준의 언어 이해와 생성 능력을 바탕으로 범용성과 전이학습의 효율성을 입증하며 파운데이션 모델의 중심축으로 자리매김했다. 이러한 LLM은 단일 모델로 요약, 번역, 질의응답, 코드 생성 등 다양한 작업을 수행하며 텍스트 기반 AI의 패러다임을 선도해 왔다. 그러나 인간처럼 세계를 인식하고 추론하려면 언어뿐 아니라 시각, 청각 등 다양한 감각 정보를 통합할 수 있는 능력이 필수적이라는 인식이 확산되었고, 이에 따라 시각과 언어를 연결하는 VLM(Visual Language Model)의 중요성이 높아졌다. 특히 CLIP, CoCa, Flamingo, GPT-4V 같은 모델들은 대규모 이미지-텍스트 데이터를 기반으로 멀티모달 표현 학습의 가능성을 보여주며, LLM을 중심으로 다른 모달리티를 연결하는 흐름을 강화하고 있다. 이처럼 LLM은 여전히 파운데이션 모델 생태계의 핵심으로서 기능하며, VLM은 그 위에 멀티모달 지능을 쌓아가는 중요한 축으로 빠르게 진화하고 있는 상황이다.
요즈음, LLM의 성능이 향상되며, 의학적 맥락에서의 질문들도 꽤 정확하게 답변하는 foundation model들이 있다. 특히 일반적인 상황에서 문진을 기반으로 한 의학적 판단은 현재의 LLM도 꽤나 정확도가 높은 답변을 보인다. 그래서 요즘 많이 LLM을 medical 분야로 fine-tuning 시킨 모델들의 benchmark로 사용되는 것이 USMLE를 기반으로 하는 평가 metric이고, 이젠 레지던트/학생들보다 훨씬 높은 점수를 보여준다. 그럼에도 불구하고, 아직 의료에선 LLM이 활용되긴 어렵다고 판단되는 이유는 무엇일까? 일반적으로 사람들이 의사를 만나는 이유는 정확한 진단을 얻기 위한 것이다. 정확한 진단을 내리기 위해, 각종 Lab test도 진행하지만, 결국 청진/시진/영상검사를 진행한다. 이러한 문답 기반이 아닌, 다양한 감각을 이용한 정보 수집을 하는 것이 결국 의사를 아직도 “직관”이라는 거대한 해자로 AI의 위협에서 보호해주고 있는 게 아닌가 싶다.
이러한 가능성을 기반으로, 요즈음 많은 회사, 그리고 연구진들은 “소리”를 이용해 질병을 조기 예측하는 인공지능, “영상” 또는 “이미지” 데이터를 이용해 질병을 진단하고/연구하려는 시도를 계속하고 있다. 그중에서도 아직까진 미지의 영역이고, 최근 주목할만한, 것은 “병리학적 이미지”를 처리하는 방법론들이라고 생각된다. 그래서 이 글의 일부분은 “CONCH”라는 MIT 연구진에 의해서 제시된 VLM 모델을 설명하는데 할애하려고 한다.
현재 가장 널리 알려져 사용되는 VLM모델은 Open AI에서 제시된 CLIP(Contrastive Language–Image Pretraining)[27]이다. CLIP은 이미지와 텍스트를 각각 처리하는 이중 인코더 구조(dual encoder architecture)를 기반으로 한다. 하나는 이미지를 입력받아 임베딩하는 이미지 인코더이고, 다른 하나는 문장을 입력받아 임베딩하는 텍스트 인코더이다. 이 두 인코더는 각각의 입력을 같은 임베딩 공간으로 매핑하도록 학습된다. 학습의 핵심은 contrastive learning 방식으로, 주어진 이미지와 올바른 캡션 쌍이 서로 가장 가까운 위치에 오도록 하고, 잘못된 캡션들과는 멀어지도록 학습한다. 구체적으로는 하나의 미니배치 안에서 모든 이미지-문장 쌍 간의 코사인 유사도를 계산하고, 정답 쌍이 가장 높은 점수를 갖도록 cross-entropy loss를 사용한다. 이 과정을 통해 CLIP은 라벨 없이도 이미지와 텍스트 간의 의미적 연관성을 학습하며, 학습 이후에는 텍스트 프롬프트만으로 다양한 이미지 분류나 검색 작업을 수행할 수 있는 zero-shot 능력을 갖게 된다.
병리학은 기본적으로 조직 슬라이드를 분석하고(Vision), 다양한 의학적 맥락(병력)을 기반으로 암을 진단하는 학문이다. 특히, 같은 형태의 세포더라도, 이 환자의 병력/병변의 위치에 따라서 다른 진단으로 결론이 날 수도 있기 때문에, 병리학적 진단을 위해선 단순히 WSI(Whole Slide Image)만을 이용해 해석하는 Vision focused된 Transformer model만으로는 부족한 것이 사실이다.
CONCH(CONtrastive learning from Captions for Histopathology)[28]는 병리학 분야에서 이미지와 언어를 통합적으로 이해할 수 있는 멀티모달 파운데이션 모델의 필요성에 따라 개발되었다. 기존의 병리학 AI는 대부분 이미지 단독(WSI 기반)의 분석에 한정되었고, 특히 병리학 연구에서의 중요한 언어 정보(진단 보고서, 교과서적 설명 등)는 거의 활용되지 않았다. CONCH는 이러한 한계를 극복하고자 117만 개 이상의 병리 이미지–캡션 쌍을 구축하고, 이를 기반으로 task-agnostic한 사전학습을 진행했다. 데이터 수집과정에서는 PMC 논문, 교육자료 등에서 다중 이미지 패널을 자동으로 분할하고, 캡션을 문맥에 맞게 나누고, 이미지와 문장을 정렬하는 자동화 파이프라인을 개발해 대규모 고품질 학습 데이터를 확보했다. 모델 구조는 Google의 CoCa 프레임워크를 기반으로 하여, 이미지 인코더, 텍스트 인코더, 멀티모달 디코더를 포함하고 있으며, contrastive loss와 captioning loss를 함께 최적화하여 이미지–텍스트 간 의미 정렬과 문장 생성을 동시에 학습한다. 학습된 CONCH는 병리학의 주요 작업인 슬라이드 분류, 조직 패턴 분류, 희귀 질환 식별, 이미지–텍스트 검색, coarse segmentation 등의 다양한 작업에서 기존 SOTA 모델들(PLIP, BiomedCLIP 등)을 능가하는 성능을 보여주었고, 특히 zero-shot, few-shot 환경에서도 강력한 성능을 발휘했다. 이처럼 CONCH는 단순한 병리 이미지 분류를 넘어서, 교육, 임상 의사결정 지원, 의료 검색 시스템 등 다양한 실질적 응용 가능성을 지닌 범용 비전–언어 플랫폼으로 주목받고 있다.
이때 CoCa[29]에 대해서도 짚고 넘어갈 필요가 있다. CoCa는 ViT 기반 이미지 인코더, Transformer 기반 텍스트 인코더, 그리고 이미지와 텍스트 정보를 함께 받아 문장을 생성하는 GPT-style 멀티모달 디코더로 구성되어, 이미지–텍스트 쌍을 의미적으로 정렬하는 contrastive loss(CLIP과 유사)와 이미지로부터 자연어 캡션을 직접 생성하는 captioning loss(GPT-style autoregressive 방식)를 동시에 학습함으로써, 단순한 매칭을 넘어 이미지 기반 문장 생성까지 가능한 범용 비전–언어 프레임워크이다.
그림 4. CoCa 프레임워크의 개요
이렇게 되면 Conch를 활용한다면, 기존에 이미지를 인식하고 이를 기반으로 텍스트로 진단을 내리는 work-flow 말고도, 특정 암의 subtype을 찾고 싶다고 하면, 이미지를 해주는 방법론도 제시될 수 있으리라 생각한다. 또한 직접 병리 판독을 내리고, 이러한 판독 결과를 기반으로 병리학적 report를 써주는 것조차도 자동화가 될 수 있지 않을까 싶다. 병리학적 이미지 이외에도, 영상이미지(CT, MRI등)도 이러한 학습 데이터를 많이 수집하고, 분석한다면, “문진을 기반으로 환자의 정보를 수집하고” 이와 통합적으로 이미지를 해석하는 방법론이 가능하면, 더더욱 정확한 진단도 내리고 의사의 업무도 실질적으로 덜어줄 날이 머지 않을거라 생각된다.
의료 이미지 분석은 이제 단순한 정확도 경쟁을 넘어서고 있다. AUROC를 통한 성능 향상에 목말랐던 시기를 지나, 이제는 신뢰, 설명 가능성 및 임상 적용성이라는 더 복합적인 목표 앞에 서 있다. 그리고 이 새로운 도전에 응하는 기술로서 LLM과 트랜스포머가 주목받고 있다. 트랜스포머는 ViT와 와 같은 형태로 직접적으로 이미지 분석을 위해서 쓰이기도 하며, 나아가 언어와 이미지를 함께 학습하는 multi-modal 모델 등이 병리학과 같은 고난도의 진단 영역에 진입하고 있다. 특히 CONCH와 같은 VLM은 단순히 진단을 보조하는 도구에 그치지 않는다. 이제 의료 인공지능은 교육, 보고서 생성, 의료 검색 시스템, 심지어 잠재적 질환에 대한 기회 진단까지 그 가능성을 넓히고 있다.
이와 같이 의료 인공지능의 모든 분야에서 '낮게 매달린 과일(low-hanging fruits)'은 거의 없어져 가며 이제는 더 깊이 있는 문제와 마주할 차례이다. 가장 초창기부터 발전해 온 이미지 분석은 더욱 그렇다. 하지만 그만큼 임상적 의미가 더 큰 결과물을 선보일 수 있는 시기가 도래한 것이기도 하다. ChatGPT와 그 사촌들이 모두의 비서이자 친구가 되어가고 있듯이, 의료인을 위한 AI 솔루션이 24시간 쉬지 않고 일해주는 만능 부하가 되어줄 것이다. 만능 부하를 직접 키우고 싶다면 결국 이미지와 언어라는 큰 그림을 양쪽 모두 이해하는 편이 최선이다. 이 중 이미지에 좀 더 관심이 많더라도, 탐구할 소재가 떨어질 것을 걱정할 필요는 없다. 늘 그랬듯이 할 일은 많을 것이다.
[1] Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
[2] Lindenberger, P., Sarlin, P. E., & Pollefeys, M. (2023). Lightglue: Local feature matching at light speed. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 17627-17638).
[3] Gatenbee, C. D., et al. (2023). Virtual alignment of pathology image series for multi-gigapixel whole slide images. Nature communications, 14(1), 4502.
[4] 국내의 유망한 사례 몇 가지를 소개하면 다음과 같다.
이지현, 〈의무기록 요약하고 보험 청구…서울대병원, 의료용 AI 개발〉, 《bio insight | 한국경제》, 2025.03.26., https://www.hankyung.com/article/2025032611361.
이해준, 〈서울대 병원 개발 언어모델, 국시 정답률 86%… 의사 평균 상회〉, 《중앙일보》, 2025.03.21., https://www.joongang.co.kr/article/25322467.
CLOVA, 〈네이버 AI, 의료진의 시간을 되찾다 | Healthcare AI팀의 이야기〉, 《클로바 | CLOVA》, 2025.03.11., https://clova.ai/tech-blog/네이버-ai-의료진의-시간을-되찾다-healthcare-ai팀의-이야기.
[5] Lunit, 〈루닛 인사이트 MMG〉, 《루닛, 인공지능 기술로 암을 정복합니다.》, https://www.lunit.io/ko/products/mmg.
[6] VUNO, 〈VUNO Med®-Fundus AI™〉, 《뷰노, View the Invisible, Know the Unknown》, https://www.vuno.co/fundus.
[7] IBM, 〈What is explainable AI?〉, 《IBM》, https://www.ibm.com/think/topics/explainable-ai.
[8] Gunning, D., Vorm, E., Wang, Y., & Turek, M. (2021). DARPA’s explainable AI (XAI) program: A retrospective. Authorea Preprints.
[9] 각각 U.S. Food and Drug Administration, European Medicines Agency, Ministry of Food and Drug Safety (식품의약품안전처, 식약처).
[10] Ritscher, D. (2020). Explainable AI and regulation in medical devices. In Proc. FDA Public Workshop–Evolving Role Artif. Intell. Radiol. Imaging. https://www.fda.gov/media/135748/download.
[11] European Medicines Agency (EMA). (2023). Reflection Paper on the Use of Artificial Intelligence (AI) in the Medicinal Product Lifecycle. https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-artificial-intelligence-ai-medicinal-product-lifecycle_en.pdf.
[12] Selvaraju, R. R., et al. (2017). Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE international conference on computer vision (pp. 618-626).
[13] Van der Velden, B. H., Kuijf, H. J., Gilhuijs, K. G., & Viergever, M. A. (2022). Explainable artificial intelligence (XAI) in deep learning-based medical image analysis. Medical Image Analysis, 79, 102470.
[14] Borys, K., Schmitt, Y. A., Nauta, M., Seifert, C., Krämer, N., Friedrich, C. M., & Nensa, F. (2023). Explainable AI in medical imaging: An overview for clinical practitioners–Beyond saliency-based XAI approaches. European journal of radiology, 162, 110786.
[15] 한 가지 사례로 다음 논문을 참고할 수 있다.
Gecer, B., Aksoy, S., Mercan, E., Shapiro, L. G., Weaver, D. L., & Elmore, J. G. (2018). Detection and classification of cancer in whole slide breast histopathology images using deep convolutional networks. Pattern recognition, 84, 345-356.
[16] T. R, M., V, V. K., & Guluwadi, S. (2024). Enhancing brain tumor detection in MRI images through explainable AI using Grad-CAM with Resnet 50. BMC medical imaging, 24(1), 107.
[17] 한 가지 사례로 다음 자료를 참고할 수 있다.
이상철, 〈길병원, 360도 VR 수술 교육 콘텐츠 개발〉, 《후생신보》, 2021.11.03., https://www.whosaeng.com/131386.
[18] 식약처에서 인공지능 의료기기 임상시험에 대한 가이드라인을 제공하고 있지만, 후향적 연구 중심이며 결과 지표도 일반적인 AI 성능 평가 지표들에 해당한다.
식품의약품안전처, 〈인공지능(AI) 의료기기 임상시험방법 설계 가이드라인 (민원인 안내서)〉, 《국민 안심이 기준입니다, 식품의약품안전처》, 2022.07.04., https://www.mfds.go.kr/brd/m_1060/view.do?seq=15041&srchFr=&srchTo=&srchWord=&srchTp=&itm_seq_1=0&itm_seq_2=0&multi_itm_seq=0&company_cd=&company_nm=&page=1.
[19] Han, R., et al. (2024). Randomised controlled trials evaluating artificial intelligence in clinical practice: a scoping review. The lancet digital health, 6(5), e367-e373.
[20] Sahashi, Y., et al. (2025). Opportunistic Screening of Chronic Liver Disease with Deep-Learning–Enhanced Echocardiography. NEJM AI, 2(3), AIoa2400948.
[21] Dosovitskiy, A., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
[22] Liu, Z., et al. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 10012-10022).
[23] Dosovitskiy, A., et al. (2020).
[24] Liu, Z., et al. (2021).
[25] Azad, R., Kazerouni, A., Heidari, M., Aghdam, E. K., Molaei, A., Jia, Y., ... & Merhof, D. (2023). Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review. arXiv preprint arXiv:2301.03505.
[26] Kashefi, R., Barekatain, L., Sabokrou, M., & Aghaeipoor, F. (2023). Explainability of vision transformers: A comprehensive review and new perspectives. arXiv preprint arXiv:2311.06786.
[27] Radford, A., et al. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PmLR.
[28] Lu, M. Y., et al. (2024). A visual-language foundation model for computational pathology. Nature Medicine, 30(3), 863-874.
[29] Yu, J., et al. (2022). Coca: Contrastive captioners are image-text foundation models. arXiv preprint arXiv:2205.01917.