728x90
해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.
강아지가 배변패드에 용변을 보면 간식을 주고, 배변패드에 용변을 보지 않으면 간식을 주지 않으면, 배변패드에 용변을 보는 행위가 강화되는, 이러한 원리가 강화학습의 원리이다. 대표적인 예로 알파고가 강화학습을 사용한다.
용어를 몇 가지 정리한다.
- Agent : 강아지
- Reward : 간식
- Enviroment : 견주
- Action : 배변패드에 용변보기
- State : 현재 강아지가 놓여있는 상황
- Q-Fuction : Q(Statet,Actiont) -> t시점의 State에서 Action은 몇 점인지?
- Episode : 시도
- ϵ−Greedy : 이 값을 0.1로 준다면, 0.1의 확률로 Q를 믿지 말라는 것.
- Discount Factor : ϵ-Greedy로 무언가 새로운 path를 찾아냈다면, path끼리 뭐가 좋은지 비교해야 한다. reward를 전파해줄 때마다 Discount Factor 값을 곱해서 최소 길이의 path를 찾도록 한다. (DF를 0.9로 두면 멀수록 값이 작아지므로)
Agent는 Reward를 maximize하기 위한다는 것이 전제이다.
728x90
'AI' 카테고리의 다른 글
선형 회귀 (Linear Regression) (2) | 2024.08.31 |
---|---|
인공신경망, weight, bias (0) | 2024.08.31 |
자기지도 학습 (0) | 2024.08.31 |
지도 학습 vs 비지도 학습 (0) | 2024.08.31 |
CNN, RNN, GAN (0) | 2024.08.31 |