BERT(NAACL-HLT 2019) 논문 리뷰

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

오뚝이개발자

BERT(NAACL-HLT 2019) 논문 리뷰 본문

AI/Deep Learning Paper Review

BERT(NAACL-HLT 2019) 논문 리뷰

땅어 2021. 10. 8. 14:25

728x90

BERT 원논문 링크

What is BERT?

Bidirectional Encoder Representations from Transformers
Can be fine-tuned with jus one additional output layer for a wide range of task
Don't need task-specific architecture

Motive

BERT는 left to right LM이 sentence level task에서 sub-optimal이라는 점을 지적
기존 LTR LM은 주로 양방향으로부터의 문맥정보를 incorporate하는 것이 중요한 경우 취약(e.g. question answering)

Transformer에서 착안한 BERT

Encoder Attention을 사용
Encoder attention은 양방향에서의 context를 incorporate하는데 반해 decoder attention은 left side(left to right)로부터의 context만을 사용
BERT가 기존 LM과의 가장 큰 차이점은 "양방향"이라는 점

Model Architecture

BERT는 pre-training, fine-tuning의 두 단계로 나뉜다.

pre-training : 서로 다른 두 개의 task(NSP, MLM)으로 trained
find-tuning : pre-training parameter로 initialized되고, downstream task 학습을 통해 parameter fine-tuning

BERT는 위 과정을 통해 unified architecture로 각기 다른 여러 task를 수행하는 것이 가능하다. BERT는 구조적으로 multi-layer bidirectional Transformer encoder이다. 논문에선 두 가지 크기의 모델로 실험을 진행해 성능평가를 한다.(L : layers #, H : hidden size, A : self-attention heads#)

BERT BASE : (L, H, A) = (12, 768, 12)
BERT LARGE : (L, H, A) = (24, 1024, 16)

Input, Output representation

CLS 토큰 : 모든 시퀀스의 시작 토큰으로 CLS토큰에 매치되는 final state는 NSP의 classification 결과값이 된다.
SEP 토큰 : 시퀀스를 구분하는 토큰

BERT는 크게 3개의 enbedding과정을 거친다.

Token embedding
Segement embedding : 시퀀스를 구분하기 위한 embedding
Position embedding

Pre-training

BERT는 2개의 unsupervised task를 사용해 pre-train을 한다.

Task #1 : MLM(Masked Language Model)

BERT의 bidirectional한 condition은 모델이 trivial하게 target word를 predict하도록 만든다. 이를 방지하기 위해 masked LM을 사용한다. 각 시퀀스에서 15%의 토큰을 랜덤하게 [MASK] 시킨다. 그런데 이렇게 [MASK]된 토큰은 fine-tuning에선 등장하지 않으므로 pre-training과의 미스매치가 발생한다. 이를 해결하기 위해 BERT는 다음과 같은 비율로 [MASK]를 진행한다.(e.g. my dog is cute)

80% → [MASK] → my dog is [MASK]
10% → random token으로 change → my dog is apple
10% → unchaged → my dog is cute

Task #2 : NSP(Next Sentence Prediction)

BERT는 NSP task도 함께 pre-train시켜 둘 이상의 문장 간의 관계(문맥 정보)를 기반으로 수행해야 하는 task에 강점을 보인다.(e.g. QA, NLI)

두 개의 sentence pair A, B가 주어지는데, 50%의 경우엔 B가 A의 next sentence(labeled as IsNext)고, 나머지 50%의 경우는 B가 corpus로부터 가져온 random sentence(labeled as NotNext)이다. model architecture 그림에서 C가 NSP를 위해 사용된다.

Data

논문에선 BooksCorpus(800M words)과 English Wikipedia(2500M words)를 pre-training을 위해 사용하였다.

BERT fine-tuning result

Find-tuing result #1 : GLUE

BERT가 모든 task에서 기존 모델들을 outperform
BERT LARGE가 BERT BASE를 모든 task에서 outperform

Fine-tuning result #2 : SQuAD v1.1

SQuAD는 Question, Answer pair data set이다. Question과 Wikipedia에서 해당 question에 대한 answer를 담고 있는 passage가 함께 주어진다. 이 때, 모델이 수행하는 task는 passage에서 question에 대한 answer text span을 찾는 것이다.

BERT single model이 top ensemble model 능가
BERT ensemble model이 top leaderboard model 능가

Find-tuning result #3 : SQuAD v2.0

SQuAD v2.0은 v1.1의 확장판으로 paragraph에 short answer이 없는 경우도 포함시켜서 좀 더 realistic한 학습을 할 수 있다.
+5.1 F1 score improvement over the previous best model

Fine-tunining result #4 : SWAG

Situations With Adversarial Generations dataset(113K sentence-pair)
Task : 4개의 선택지 중 주어진 sentence의 다음 상황으로 가장 알맞은(the most plausible) sentence 고르기

Ablation Study

ablation study란 특정 요소를 제거해보고 전체 성능에 미치는 효과에 대한 insight를 얻기 위한 실험이다. 논문에선 pre-training과 model size에 대한 실험을 진행하였다.

Study #1 : Effect of pre-training task

BERT vs. No NSP

pre-training에서 NSP의 효과 관찰
NSP를 제거한 모델은 QNLI, MNLI, SQuAD task에서 성능이 크게 저하

No NSP vs. LTR&No NSP

Bidirectionality의 효과 관찰
LTR 모델은 MRPC, SQuAD에서 성능이 크게 저하

Stud #2 : Effect of model size

large model은 4개의 dataset에서 모두 더 좋은 accuracy를 보임
특이점은 MRPC와 같이 small dataset에서도 large model이 더 좋은 accuracy를 보인다는 것이다(보통 small dataset의 경우 모델 크기가 커지면 오버피팅으로 인해 accuracy가 저하되는 경우가 많은 것을 고려하면 이례적이다)

BERT의 개선 버전 최근 모델

최근 아래와 같은 BERT를 적용한 개선 모델이 많이 나와 benchmark에서 기본 BERT는 순위권 안에는 들지 못한다.

XLNet
ALBERT(Google)
RoBERTa(Facebook AI)

728x90

저작자표시

'AI > Deep Learning Paper Review' 카테고리의 다른 글

Towards a Human-like Open-Domain Chatbot(Meena) 리뷰 (0)	2021.11.04
ELECTRA(ICLR 2020) 논문 리뷰 (1)	2021.10.27
Attention is all you need(NIPS 2017) 논문 리뷰 (0)	2021.09.17
NLG(Natural Language Generation)에 대하여 (0)	2021.09.12
RealFormer : Transformer Likes Residual Attention 논문 리뷰 (0)	2021.09.12

'AI/Deep Learning Paper Review' Related Articles

Comments

오뚝이개발자

BERT(NAACL-HLT 2019) 논문 리뷰 본문

BERT(NAACL-HLT 2019) 논문 리뷰

What is BERT?

Motive

Transformer에서 착안한 BERT

Model Architecture

Input, Output representation

Pre-training

Task #1 : MLM(Masked Language Model)

Task #2 : NSP(Next Sentence Prediction)

Data

BERT fine-tuning result

Find-tuing result #1 : GLUE

Fine-tuning result #2 : SQuAD v1.1

Find-tuning result #3 : SQuAD v2.0

Fine-tunining result #4 : SWAG

Ablation Study

Study #1 : Effect of pre-training task

Stud #2 : Effect of model size

BERT의 개선 버전 최근 모델

'AI > Deep Learning Paper Review' 카테고리의 다른 글

티스토리툴바