일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 순열
- 코딩테스트
- OS
- 백준
- 그래프
- 리눅스
- dp
- 구글 킥스타트
- 딥러닝
- 동적프로그래밍
- linux
- AI
- kick start
- google coding competition
- CSS
- 동적 프로그래밍
- 킥스타트
- 프로그래머스
- 알고리즘
- 프로그래밍
- nlp
- 네트워크
- 코딩
- BFS
- PYTHON
- DFS
- 파이썬
- 운영체제
- 코딩 테스트
- 브루트포스
- Today
- Total
목록Regularization (4)
오뚝이개발자

선형 회귀는 사용되는 특성(feature)의 갯수에 따라 다음과 같이 구분된다. - 단순 선형 회귀(simple linear regression) : 특징이 1개 - 다중 선형 회귀(multiple linear regression) : 특징이 여러개 LASSO와 Ridge는 선형 회귀의 단점을 보완해 범용성을 부여하기 위해 만들어진 도구들이다. 선형 회귀란? 예컨대, 어묵을 팔고 있는 사람이 기온에 따른 자신의 어묵 판매량을 알아보기 위해 상관관계를 조사했다고 하자. 그 결과 기온이 낮은 날에는 어묵 판매량이 늘어나는 경향이 있었다. 이를 바탕으로 경향성을 분석하자 y=ax+b와 같은 선형 관계가 나타났다. 덕분에 어묵 장수는 자신의 다음 날의 기온을 일차함수식에 넣어 판매량을 예측한 뒤 필요한 만큼의 ..

Bias와 Variace의 개념 쉽게 사격을 한다고 생각하면 된다. 위 그림의 파란색 엑스표는 예측값을 나타낸다. bias란 말그대로 예측값이 중앙(Truth)에서 얼마나 멀리 떨어져있는지를 나타낸다. bias가 높으면 중앙에서 멀리 떨어져있고, 낮으면 중앙과 가까이 붙어있다는 것이다. variance란 예측값들이 서로 얼마나 멀리 떨어져있는지를 나타낸다. variance가 높으면 예측값들이 서로 멀리 떨어져있고, 낮으면 서로 붙어있다. 성능과 bias, variance - 모델의 성능을 높이기 위해선 당연하게도 bias와 variance를 둘 다 줄이는 것이 좋다. - 하지만 이 둘 간에는 상충관계(trade-off)가 있다. - 일반적으로 bias가 증가하더라도 variance의 감소폭이 크면 좋은 ..

L1, L2 regularization은 모두 overfitting을 막기 위해 사용된다. 두 개념을 알기 위해 필요한 사전개념들이 있다. 이들을 순차적으로 알아보자. Norm Norm은 벡터의 크기(길이)를 측정하는 방법(혹은 함수)이다. 두 벡터 사이의 거리를 측정하는 방법이기도 하다. - p는 Norm의 차수, p=1이면 L1 Norm이고, p=2이면 L2 Norm - n은 해당 벡터의 원소 수 L1 Norm - L1 Norm은 쉽게 말해 벡터 p,q의 각 원소들의 차이의 절댓값의 합 L2 Norm - L2 Norm은 벡터 p, q의 직선 거리 - q가 원점이라면 벡터 p, q의 L2 Norm은 벡터 p의 원점으로부터의 직선거리 L1 Norm과 L2 Norm의 차이 - 검정색 두 점 사이의 L1 N..

오버피팅이란? 훈련 데이터에만 지나치게 학습되어 새로운 데이터에 대응하지 못하는 현상, 과적합이라고도 한다. 주로 다음과 같은 경우에 발생한다. - 모델이 깊어 파라미터 수가 많고, 표현력이 좋은 모델 - 학습용 데이터의 양이 부족한 경우 SOL1) 배치 정규화(Batch Normalization) - 일반적으로 좋은 가중치의 초깃값이란 활성화 값(Activation value)이 고르게 분포되도록 하는 값을 말함. - 배치 정규화는 가중치의 초깃값에 의존하지 않고 '강제로' 활성화 값을 적절히 분포되도록 하는 것. - 미니배치 B=x1, x2, ..., xn을 평균이 0, 분산이 1인 표준정규분포를 따르도록 정규화 - 배치 정규화의 장점 가중치 초깃값에 크게 의존적이지 않다. Gradient vanis..