[Dataset] NIH Google

seob2 2024. 5. 24. 17:27

2024. 5. 24. 17:27

NIH Chest X-ray 14 (이하 NIH)에서 가져온 일부 데이터에 대해서 Google Health에서 새로 레이블링 진행하고 논문 쓴 고퀄리티의 dataset.

핵심 포인트

위 figure에 설명 된 것처럼 초기 112,120장에서 split 별로 랜덤 샘플링 진행하고 필터링 진행 후 추가 레이블링 진행.
NIH Dataset의 경우 Train, validataion은 따로 구분 안 되어있는데 어떻게 했지? -> The remaining 86,524 images from 28,008 patients were randomly split into training (68,801 images) and validation sets (17,723).
train 13,343 + val 2,412 + test 1,962 총 17,717장 구성
trainset은 아쉽게도 annotation을 공개하지 않지만 validation, test는 annotation 공개. 상단 링크에서 다운로드 가능.
기흉, 결절, 골절, opacity 4가지에 대해서만 레이블이 되어있음.
각 영상들은 3명의 radiologists 리뷰하에 진행하고 불일치가 있을 경우 재 리뷰를 다섯번까지 진행. 그래도 안될 경우 다수결.

vscode에서 서버 연결할 때, XHR failed (0)	2021.08.26
coco label items (0)	2021.08.11
Darknet validationset 학습 포함 여부 (0)	2021.07.29

seob2