NIH Chest X-ray 14 (이하 NIH)에서 가져온 일부 데이터에 대해서 Google Health에서 새로 레이블링 진행하고 논문 쓴 고퀄리티의 dataset.

핵심 포인트

  • 위 figure에 설명 된 것처럼 초기 112,120장에서 split 별로 랜덤 샘플링 진행하고 필터링 진행 후 추가 레이블링 진행.
  • NIH Dataset의 경우 Train, validataion은 따로 구분 안 되어있는데 어떻게 했지? -> The remaining 86,524 images from 28,008 patients were randomly split into training (68,801 images) and validation sets (17,723).
  • train 13,343 + val 2,412 + test 1,962 총 17,717장 구성
  • trainset은 아쉽게도 annotation을 공개하지 않지만 validation, test는 annotation 공개. 상단 링크에서 다운로드 가능.
  • 기흉, 결절, 골절, opacity 4가지에 대해서만 레이블이 되어있음.
  • 각 영상들은 3명의 radiologists 리뷰하에 진행하고 불일치가 있을 경우 재 리뷰를 다섯번까지 진행. 그래도 안될 경우 다수결. 
  •  

'Deep Learning > 기타' 카테고리의 다른 글

vscode에서 서버 연결할 때, XHR failed  (0) 2021.08.26
coco label items  (0) 2021.08.11
Darknet validationset 학습 포함 여부  (0) 2021.07.29

+ Recent posts