NIH Chest X-ray 14 (이하 NIH)에서 가져온 일부 데이터에 대해서 Google Health에서 새로 레이블링 진행하고 논문 쓴 고퀄리티의 dataset.
- NIH google paper : https://pubs.rsna.org/doi/epdf/10.1148/radiol.2019191293
- NIh google downlaod : https://cloud.google.com/healthcare/docs/resources/public-datasets/nih-chest#additional_labels
핵심 포인트
- 위 figure에 설명 된 것처럼 초기 112,120장에서 split 별로 랜덤 샘플링 진행하고 필터링 진행 후 추가 레이블링 진행.
- NIH Dataset의 경우 Train, validataion은 따로 구분 안 되어있는데 어떻게 했지? -> The remaining 86,524 images from 28,008 patients were randomly split into training (68,801 images) and validation sets (17,723).
- train 13,343 + val 2,412 + test 1,962 총 17,717장 구성
- trainset은 아쉽게도 annotation을 공개하지 않지만 validation, test는 annotation 공개. 상단 링크에서 다운로드 가능.
- 기흉, 결절, 골절, opacity 4가지에 대해서만 레이블이 되어있음.
- 각 영상들은 3명의 radiologists 리뷰하에 진행하고 불일치가 있을 경우 재 리뷰를 다섯번까지 진행. 그래도 안될 경우 다수결.
'Deep Learning > 기타' 카테고리의 다른 글
vscode에서 서버 연결할 때, XHR failed (0) | 2021.08.26 |
---|---|
coco label items (0) | 2021.08.11 |
Darknet validationset 학습 포함 여부 (0) | 2021.07.29 |