강화학습

강화 학습

2024.08.31

해당 게시물은 "혁펜하임의 AI DEEP DIVE"를 수강하고 작성되었습니다.강아지가 배변패드에 용변을 보면 간식을 주고, 배변패드에 용변을 보지 않으면 간식을 주지 않으면, 배변패드에 용변을 보는 행위가 강화되는, 이러한 원리가 강화학습의 원리이다. 대표적인 예로 알파고가 강화학습을 사용한다. 용어를 몇 가지 정리한다. Agent : 강아지Reward : 간식Enviroment : 견주Action : 배변패드에 용변보기State : 현재 강아지가 놓여있는 상황Q-Fuction : $Q(State_t, Action_t)$ -> t시점의 State에서 Action은 몇 점인지?Episode : 시도 $\epsilon - Greedy$ : 이 값을 0.1로 준다면, 0.1의 확률로 Q를 믿지 말라는 것.Di..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

강화학습

강화 학습

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역