제1회 Medical AI (MAI) 경진대회
- awards: 장려상
- 주최/주관: 고려대학교 의료원, 고려대학교 의과대학, 고려대학교 BK21 융합중개의과학교육연구단
- 후원: 에스케이쉴더스, 에스엔에이
- 운영: 데이콘
H&E 염색된 조직 이미지로부터 유전자 발현 예측
H&E 염색된 조직 이미지를 입력으로 받아, 해당 이미지에서 유전자 발현 데이터를 예측하는 AI 모델을 개발해야 합니다.
제공된 학습 데이터는 이미지와 유전자 발현 정보가 함께 제공되며, 이를 바탕으로 이미지와 유전자 발현 간의 관계를 모델이 학습해야합니다.
평가 단계에서는 유전자 발현 정보가 제공되지 않는 새로운 이미지를 입력으로 받아, 이를 통해 유전자 발현 프로파일을 예측해야합니다.
- H&E 염색은 병리학적 분석에서 널리 사용되는 염색 방법으로, 세포핵은 보라색, 세포질과 기질은 붉은색으로 염색됩니다.
- 염색 특성의 왜곡은 병리적 정보를 손상시킬 수 있으므로, 증강 기법 선택 시 색상 변형을 최소화하는 것이 중요했습니다.
- 타겟 유전자들은 각각 다양한 스케일과 분포를 가지고 있습니다.
- 유전자 간의 상관관계가 높지 않은 경우도 많아, 개별 유전자 값을 일괄적으로 예측하면 잡음 학습이나 과적합의 위험이 있습니다.
- 따라서 유사한 발현 패턴과 상관관계를 가진 유전자들을 그룹화하여 예측하는 전략이 필요했습니다.
저희는 학습 전략을 세 가지 접근법으로 구성했습니다:
- 모델 접근 (손실 함수 설계)
- 유전자 접근 (군집화 전략)
- 데이터 접근 (이미지 증강 및 검증)
기존의 MSE loss는 유전자 발현값의 정확도만 개선할 뿐, 유전자 간의 상관관계나 복잡한 생물학적 패턴을 반영하지 못합니다. 이를 보완하기 위해 두 가지 새로운 손실 함수를 개발했습니다:
-
피어슨 상관관계 기반 loss:
- 유전자 발현의 상대적 변동 패턴을 학습하도록 유도합니다.
- 예측값과 실제값 간의 상관관계를 높임으로써, 모델이 상대적 변화와 패턴을 더 잘 반영하게 합니다.
- 장점: 데이터의 스케일에 독립적으로 작동하며, 다양한 유전자의 발현 패턴을 효과적으로 학습할 수 있습니다.
-
공분산 행렬 기반 loss:
- 유전자 발현값 간의 공변성 구조를 반영하여, 유전자 간의 복잡한 상호작용 패턴을 학습할 수 있습니다.
- 공분산 행렬은 발현값의 절대적 크기와 분산 정보를 포함하므로, 모델이 유전자 간의 변동성과 상호작용을 동시에 학습할 수 있도록 돕습니다.
-
최종 손실 함수 조합:
- MSE, 피어슨 상관관계 기반 loss, 공분산 행렬 loss를 조합하여, 유전자 발현의 정확도, 상관관계, 변동성을 모두 고려한 학습이 가능하게 했습니다.
유전자 발현 패턴의 다양성과 상호작용을 고려해, 데이터를 효과적으로 그룹화하고 예측 성능을 높이기 위한 군집화 전략을 설계했습니다.
-
기능적 군집화:
- 유전자들이 특정 기능(예: 면역 반응, 대사 과정)을 공유할 때 공동 발현 패턴이 나타날 수 있다는 가설을 세웠습니다.
- 기능적 유사성에 따라 유전자들을 군집화하여, 생물학적으로 관련된 유전자들이 함께 학습되도록 했습니다.
-
접두사 연관성 기반 군집화:
- 유전자 이름의 접두사에 주목하여, 동일 접두사를 가진 유전자들이 유사한 발현 패턴을 가질 가능성을 고려했습니다.
- Grad-CAM 시각화 분석에서 동일 접두사 유전자들이 유사한 활성화 패턴을 보이는 경향을 확인하고, 이를 군집화 전략에 반영했습니다.
-
유사도 기반 군집화:
- 차원 축소와 K-means 알고리즘을 사용해, 발현 패턴이 유사한 유전자들을 그룹화했습니다.
- 이 방법은 유전자 간 거리가 가까울수록 발현 패턴이 비슷하다는 점을 활용하여, 모델이 과적합되지 않도록 도왔습니다.
- H&E 염색 특성을 보존하면서도, 다양한 변형에 견딜 수 있는 모델을 만들기 위해 증강 기법을 신중하게 선택했습니다.
- DINO와 LPIPS Score를 사용해 증강 전후 이미지의 유사성을 평가했습니다.
- 이 지표들은 이미지 생성 논문에서 주로 사용되며, 원본 이미지와의 변형 정도를 평가하는 데 적합합니다.
- 유사성이 낮은 증강 기법은 제외하고, 병리학적 특성을 유지하는 증강만 적용하여 안정적인 학습을 도모했습니다.
- 그룹별 학습: 군집화된 데이터를 기준으로 개별 모델을 학습시켰으며, 각 모델은 손실 함수 설계를 반영하여 학습했습니다.
- 백본 모델 다양화: validation score 기준으로 3개의 백본 모델을 구성하여, 다양한 관점에서 특징을 추출하고 예측 성능을 극대화했습니다.
- 결과: 군집화 전략과 손실 함수 설계 덕분에, 예측 성능과 일반화 능력에서 큰 향상을 확인할 수 있었습니다.
- 향후 개선: 생물학적 경로 정보를 추가로 통합하고, GO 용어 기반의 정교한 군집화 방법을 적용할 계획입니다. 이를 통해 유전자 간의 복잡한 상호작용을 더욱 정확히 반영할 수 있을 것입니다.
- train [폴더]:
- 샘플 수: 학습용 H&E 염색된 조직 이미지 6992개
- 파일명:
TRAIN_0000.png
~TRAIN_6991.png
- 설명: H&E 염색을 통해 세포의 병리적 특징이 반영된 조직 이미지 샘플
- test [폴더]:
- 샘플 수: 평가용 H&E 염색된 조직 이미지 2277개
- 파일명:
TEST_0000.png
~TEST_2276.png
- 설명: 예측 모델 성능 평가를 위한 테스트용 조직 이미지 샘플
- train.csv:
- ID: 샘플 ID (이미지 파일명과 연결)
- path: H&E 염색된 조직 이미지의 경로
- 유전자 발현 정보:
AL645608.7
~AL592183.1
(총 3467개 유전자 발현값)
- test.csv:
- ID: 샘플 ID (이미지 파일명과 연결)
- path: H&E 염색된 조직 이미지의 경로
- 설명: 예측할 유전자 발현값은 제공되지 않음
- sample_submission.csv:
- ID: 샘플 ID
- 유전자 발현 정보:
AL645608.7
~AL592183.1
(총 3467개 유전자의 예측 발현값 제출)
**Time-Series**
- 예측값 활용