일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 그래프
- 알고리즘
- nlp
- 프로그래밍
- 네트워크
- 파이썬
- 코딩테스트
- AI
- kick start
- 코딩
- 프로그래머스
- 순열
- 동적프로그래밍
- 구글 킥스타트
- 브루트포스
- OS
- 코딩 테스트
- 리눅스
- 백준
- linux
- 운영체제
- dp
- PYTHON
- CSS
- 딥러닝
- DFS
- google coding competition
- 동적 프로그래밍
- BFS
- 킥스타트
- Today
- Total
목록강화학습 (2)
오뚝이개발자
강화학습은 근래 들어 많은 발전이 이루어진 학습 방법이다. 간단히 설명하자면, agent와 environment를 두고 agent가 어떠한 action을 할 때마다 환경으로부터의 피드백(긍정/부정)이 온다. 이를 기반으로 학습을 하는 것이 바로 강화학습(RL)이다. 그런데 이러한 강화학습이 게임 분야에서는 매우 많이 사용이 되지만 왜 현실적인 문제들(예컨대, 자율주행)에서는 실적용이 어려울까? 다른 말로는, 왜 practical하게 적용하지 못할까? RL은 근본적으로 trial-and-error 방식으로 작동한다. 즉, 어떠한 시도(action)를 해보고 이에 대한 에러를 feedback을 통해 수정하는 방식으로 학습이 진행된다. 하지만, 현실세계에선 이러한 실패(error)가 일어나선 안되는 경우가 많..

본 글은 밑바닥부터 시작하는 딥러닝 포스팅에 이어 핸즈온 머신러닝 2판(오렐리앙 제롱 지음) 책을 공부한 것을 요약한 것으로 밑바닥 딥러닝 책에 나오지 않는 개념들 위주로 정리한다. 나오지 않는 개념이나 기본적인 개념들을 밑바닥부터 시작하는 딥러닝에 포스팅하였으니 먼저 보고 오기를 추천한다. 머신러닝 시스템의 종류 사람의 감독 하에 훈련하는 것인지 아닌지(지도, 비지도, 준지도, 강화 학습) 실시간으로 점진적인 학습을 하는지 아닌지(온라인, 배치 학습) 어떻게 일반화 되는가 : 단순히 알고있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자들이 하는 것처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지(사례기반, 모델기반 학습) 지도학습(supervised learning) -..