[논문 리뷰] When Ensembling Smaller Models is More Efficient than Single Large Models

seob2 2024. 5. 20. 13:33

2024. 5. 20. 13:33

개인적으로 읽고 쓰는 공부용 리뷰입니다.

틀린 점이 있을 수도 있으니 감안하고 읽어주세요. 피드백은 댓글로 부탁드립니다.

paper overview

논문링크 : paper link
model ensemble

논문이라기보다는 technical report에 가깝지만 내용이 재밌어서 가져왔다. 주 내용은 제목 그대로 "작은 모델들 앙상블 하는 것이 큰 모델 보다 효과적이다" 라는 것이다. 증명을 위해 cifar와 imagenet으로 실험을 진행했으며, 각 데이터셋에 wide resnet, efficientnet을 사용한다. ~~사실 내용은 크게 볼 것 없지만 google reseach길래..~~

Abstract

모델 앙상블이 하나의 모델보다 속도도 빠르고 더 정확하다. 심지어 이 차이는 모델의 사이즈가 점점 커질수록 크다.
cifar10이랑 imagenet에서 검증한다.
하나의 거대 모델을 튜닝하는 것보다는 모델 앙상블 하는 것이 trade-off에서 더 유연하다.

1. Introduction

일반적으로 모델의 파라미터 수를 증가시켜면 동일한 파라미터나 연산 수의 앙상블보다는 좋을 것이라고 예상함 ( 오버피팅 제외) 왜냐하면, 모델 앙상블은 하나의 거대 모델보다 less connectivity하기 때문이다.
단일 모델보다 적은 연산 량으로 더 높은 정확도를 보이는 앙상블을 찾는 것을 보여준다.
이를 위해 우리는 cifar에는 wide-resnet을, imagenet에는 efficientnet을 활용한다.
NAS를 통해 다양한 조합을 시도해봤지만 같은 구조의 모델 앙상블 보다 더 나은 방법을 찾기 못했다.
다양한 구조를 활용하는 것은 더 나은 방법 ( NAS 보다)을 사용하거나 차라리 단일 모델을 튜닝하는 것이 낫다.

2. Approaches and Experiments

앙상블 할 때 같은 구조를 독립적으로 학습한다.
각 모델의 출력은 기하 평균으로 계산. (element-wise 곱의 제곱근으로 계산)

2.1. Image Classification on CIFAR-10

wide resnet family 선정, 8개씩 각각 학습
n=16 ( WRN 논문 기준 N=2), k = {1,2,4,8}, image size 32x32.
오버피팅 방지 위해 작은 모델 사용.

파란선은 wrn 16-1을 사용하여 1~8개씩 앙상블 한 결과를 보여줌. 노란선 ~ 빨간선도 마찬가지.
초록색 3 즉 wrn16-4 3개가 wrn 16-8 1개보다 높은 성능을 보이며 더 적은 연산량을 가짐. 하지만 파란거 3보다 주황색1이 조금더 높은 성능을 보임. 즉 Abstract에서 말한 "this gap in im- provement widens as models become large." 것이 이 부분.

WRN 구조 기본적으로 4개의 conv layer를 갖고 N이 커질수록 6개씩 커짐 즉 6N+4 의 개수를 가지며 k는 conv block의 width를 의미.

2.2. Image Classification on ImageNet

efficientnet b0~b7 사용. 3개씩 각각 학습.
오버피팅 효과를 더 잘보기위해 autoaugment, randaugment등 사용하지 않음.

3. Result

모델 크기가 작을 땐 앙상블의 효과가 적어 보일 수 있지만 모델이 커질수록 앙상블의 효과를 확실히 볼 수 있다.
어쨌든 앙상블이 가능한 상황이라면, 하나의 모델을 짜내는 것보다 앙상블이 효과 적이다.
단순히 같은 모델들의 학습 및 앙상블 보다 다양한 구조를 사용하면 더 좋을 것 같아서 NAS 써봤지만 효과 못 봤다.

저작자표시 비영리 변경금지

'Deep Learning > 논문 정리' 카테고리의 다른 글

[논문 리뷰] A ConvNet for the 2020s (2)	2024.06.12
[논문 리뷰] Wisdom of committees: An overlooked approach to faster and more accurate models (0)	2024.05.20
[논문리뷰] FCN, Fully convolutional networks for semantic segmentation (0)	2021.04.25
[논문리뷰] DLA, Deep layer aggregation (0)	2020.12.29
[논문리뷰] ZFnet, Visualizing and Understanding Convolutional Networks (0)	2020.12.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

seob2

[논문 리뷰] When Ensembling Smaller Models is More Efficient than Single Large Models

개인적으로 읽고 쓰는 공부용 리뷰입니다.

paper overview

Abstract

1. Introduction

2. Approaches and Experiments

2.1. Image Classification on CIFAR-10

2.2. Image Classification on ImageNet

3. Result

'Deep Learning > 논문 정리' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역