일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- dp
- AI
- 딥러닝
- 운영체제
- kick start
- 네트워크
- 코딩 테스트
- 코딩테스트
- 동적프로그래밍
- 알고리즘
- 킥스타트
- google coding competition
- 코딩
- 리눅스
- 프로그래머스
- 구글 킥스타트
- BFS
- 동적 프로그래밍
- DFS
- linux
- OS
- 프로그래밍
- 그래프
- nlp
- 백준
- CSS
- 브루트포스
- 순열
- 파이썬
- PYTHON
- Today
- Total
목록AI (48)
오뚝이개발자

Sub-tasks of NLG Machine Translation Summarization Dialogue : task-oriented system, open-domain system(social dialogue) Creative writing : storytelling, poetry-generation Freeform Question Answering Image captioning Language Model(LM) Language Modeling : 특정 time-step까지의 words sequence가 주어졌을 때, 해당 time-step 이후의 word를 predict하는 것 Language Model : 확률 분포 P(yt|y1,...,yt-1)를 producing하는 system Conditi..

오늘 리뷰할 논문은 구글 리서치팀에서 발표한 "RealFormer : Transformer Likes Residual Attention"(링크)이다. 해당 논문은 Transformer와 Attention의 후속 연구 같은 느낌이니 두 개념에 대해 먼저 알고 본 포스팅을 보는 것을 추천한다. 무슨 논문이지? 쉽게 말해, RealFormer는 기존의 Transformer의 성능을 향상시키는 방법에 대한 논문이다. 그런데 기존 Transformer의 2개의 canonical한 구조 Pre-LN, Post-LN에서 약간의 구조적인 변화를 주어 이러한 성능 향상을 이끌어 내는 것이다. 정확히는 Resnet의 개념을 Transformer에 접목하여서 말이다. 이에 대해선 뒤에서 더 자세히 설명하겠다. 그렇게 만들어..

본 글은 밑바닥부터 시작하는 딥러닝 포스팅에 이어 핸즈온 머신러닝 2판(오렐리앙 제롱 지음) 책을 공부한 것을 요약한 것으로 밑바닥 딥러닝 책에 나오지 않는 개념들 위주로 정리한다. 나오지 않는 개념이나 기본적인 개념들을 밑바닥부터 시작하는 딥러닝에 포스팅하였으니 먼저 보고 오기를 추천한다. 이진 분류기 훈련 문제가 복잡할 때는 단순화해서 검증을 해보는 것이 유용하다. 예를 들어, MNIST 손글씨 분류 문제에서는 0~9까지 10개의 클래스에 대해 한 번에 검사하기 보단 '5-감지기'와 '5아님-감지기' 두 개의 클래스를 구분할 수 있는 이진 분류기(binary classifier)를 구현해 테스트 해보는 것이다. 성능측정 1. 교차 검증을 사용한 정확도 측정(k-fold cross validation)..

본 글은 밑바닥부터 시작하는 딥러닝 포스팅에 이어 핸즈온 머신러닝 2판(오렐리앙 제롱 지음) 책을 공부한 것을 요약한 것으로 밑바닥 딥러닝 책에 나오지 않는 개념들 위주로 정리한다. 나오지 않는 개념이나 기본적인 개념들을 밑바닥부터 시작하는 딥러닝에 포스팅하였으니 먼저 보고 오기를 추천한다. 머신러닝 시스템의 종류 사람의 감독 하에 훈련하는 것인지 아닌지(지도, 비지도, 준지도, 강화 학습) 실시간으로 점진적인 학습을 하는지 아닌지(온라인, 배치 학습) 어떻게 일반화 되는가 : 단순히 알고있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자들이 하는 것처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지(사례기반, 모델기반 학습) 지도학습(supervised learning) -..

선형 회귀는 사용되는 특성(feature)의 갯수에 따라 다음과 같이 구분된다. - 단순 선형 회귀(simple linear regression) : 특징이 1개 - 다중 선형 회귀(multiple linear regression) : 특징이 여러개 LASSO와 Ridge는 선형 회귀의 단점을 보완해 범용성을 부여하기 위해 만들어진 도구들이다. 선형 회귀란? 예컨대, 어묵을 팔고 있는 사람이 기온에 따른 자신의 어묵 판매량을 알아보기 위해 상관관계를 조사했다고 하자. 그 결과 기온이 낮은 날에는 어묵 판매량이 늘어나는 경향이 있었다. 이를 바탕으로 경향성을 분석하자 y=ax+b와 같은 선형 관계가 나타났다. 덕분에 어묵 장수는 자신의 다음 날의 기온을 일차함수식에 넣어 판매량을 예측한 뒤 필요한 만큼의 ..

Bias와 Variace의 개념 쉽게 사격을 한다고 생각하면 된다. 위 그림의 파란색 엑스표는 예측값을 나타낸다. bias란 말그대로 예측값이 중앙(Truth)에서 얼마나 멀리 떨어져있는지를 나타낸다. bias가 높으면 중앙에서 멀리 떨어져있고, 낮으면 중앙과 가까이 붙어있다는 것이다. variance란 예측값들이 서로 얼마나 멀리 떨어져있는지를 나타낸다. variance가 높으면 예측값들이 서로 멀리 떨어져있고, 낮으면 서로 붙어있다. 성능과 bias, variance - 모델의 성능을 높이기 위해선 당연하게도 bias와 variance를 둘 다 줄이는 것이 좋다. - 하지만 이 둘 간에는 상충관계(trade-off)가 있다. - 일반적으로 bias가 증가하더라도 variance의 감소폭이 크면 좋은 ..

L1, L2 regularization은 모두 overfitting을 막기 위해 사용된다. 두 개념을 알기 위해 필요한 사전개념들이 있다. 이들을 순차적으로 알아보자. Norm Norm은 벡터의 크기(길이)를 측정하는 방법(혹은 함수)이다. 두 벡터 사이의 거리를 측정하는 방법이기도 하다. - p는 Norm의 차수, p=1이면 L1 Norm이고, p=2이면 L2 Norm - n은 해당 벡터의 원소 수 L1 Norm - L1 Norm은 쉽게 말해 벡터 p,q의 각 원소들의 차이의 절댓값의 합 L2 Norm - L2 Norm은 벡터 p, q의 직선 거리 - q가 원점이라면 벡터 p, q의 L2 Norm은 벡터 p의 원점으로부터의 직선거리 L1 Norm과 L2 Norm의 차이 - 검정색 두 점 사이의 L1 N..

오버피팅이란? 훈련 데이터에만 지나치게 학습되어 새로운 데이터에 대응하지 못하는 현상, 과적합이라고도 한다. 주로 다음과 같은 경우에 발생한다. - 모델이 깊어 파라미터 수가 많고, 표현력이 좋은 모델 - 학습용 데이터의 양이 부족한 경우 SOL1) 배치 정규화(Batch Normalization) - 일반적으로 좋은 가중치의 초깃값이란 활성화 값(Activation value)이 고르게 분포되도록 하는 값을 말함. - 배치 정규화는 가중치의 초깃값에 의존하지 않고 '강제로' 활성화 값을 적절히 분포되도록 하는 것. - 미니배치 B=x1, x2, ..., xn을 평균이 0, 분산이 1인 표준정규분포를 따르도록 정규화 - 배치 정규화의 장점 가중치 초깃값에 크게 의존적이지 않다. Gradient vanis..