일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- CSS
- 브루트포스
- 딥러닝
- PYTHON
- 알고리즘
- DFS
- 코딩 테스트
- 리눅스
- 그래프
- kick start
- 코딩테스트
- 킥스타트
- BFS
- 코딩
- 순열
- 파이썬
- nlp
- AI
- 구글 킥스타트
- linux
- 운영체제
- 동적프로그래밍
- google coding competition
- 프로그래밍
- OS
- 백준
- 동적 프로그래밍
- 네트워크
- 프로그래머스
- dp
- Today
- Total
목록드롭아웃 (2)
오뚝이개발자

오버피팅이란? 훈련 데이터에만 지나치게 학습되어 새로운 데이터에 대응하지 못하는 현상, 과적합이라고도 한다. 주로 다음과 같은 경우에 발생한다. - 모델이 깊어 파라미터 수가 많고, 표현력이 좋은 모델 - 학습용 데이터의 양이 부족한 경우 SOL1) 배치 정규화(Batch Normalization) - 일반적으로 좋은 가중치의 초깃값이란 활성화 값(Activation value)이 고르게 분포되도록 하는 값을 말함. - 배치 정규화는 가중치의 초깃값에 의존하지 않고 '강제로' 활성화 값을 적절히 분포되도록 하는 것. - 미니배치 B=x1, x2, ..., xn을 평균이 0, 분산이 1인 표준정규분포를 따르도록 정규화 - 배치 정규화의 장점 가중치 초깃값에 크게 의존적이지 않다. Gradient vanis..

매개변수 갱신 신경망 학습의 목적은 손실함수의 값을 최대한 낮추는 매개변수를 찾는 것이었다. 이는 바로 최적의 매개변수를 찾는 최적화 문제이다. 앞 장에서 다루었던 매개변수의 기울기(미분)를 이용해 갱신하는 방식을 확률적 경사 하강법(SGD)라 한다. 최적화 방법에는 SGD말고도 모멘텀, AdaGrad, Adam 이라는 다른 방법들이 존재한다. (아래의 코드는 SGD를 구현한 것.) class SGD: def __init__(self, lr=0.01): self.lr = lr def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key] GD와 SGD의 차이에 대해 조금 더 정확히 말하자면, SGD..