[공부] 강화학습 내용 정리

본문 바로가기

Recent Posts

Recent Comments

Archives

Today

Total

Tags more

Link

관리 메뉴

댄코 - 댄싱코딩

[공부] 강화학습 내용 정리 본문

코딩/기계학습

[공부] 강화학습 내용 정리

Jk hila 2018. 5. 29. 01:54

이 글은 책, 한빛미디어의 강화학습 첫걸음을 참조해서 작성되었습니다.

1.강화학습이란?

딥러닝의 한종류
지구의 모든 생물이 공유하며 모든 지능적인 행동의 기반이 되는 관계인 상호관계를 포착해서 공식적인 모델로 만드는것
행위자의 액션이 환경에 영향을 줌. 이에 따라 행위자가 보상을 받게되는 형태

2.강화학습의 세가지 요소

액션 의존성 : 각 액션은 다른 보상을 가져옴
시간 의존성 : 보상은 시간이 지연되고 나서야 주어져야함, 보상이 자주 있는것이 아니라 드문드문 있음.
상태 의존성 : 어떤 액션에 대한 보상은 환경의 상태에 좌우됨. 적절한 액션을 취하기 위해 환경의 특성을 이해해야함

3. 정책 :

주어진 환경의 어떤 상황에서 어떤 행위자가 취하게 되는 일련의 액션

-행위자가 주어진 황경 내에서 최대의 보상을 얻는 정책을 최적의 정책으로 간주

정책 방적식 :

A : 어드밴티지, 액션이 어떤 기준선 보다 얼마나 더 나은지의 정도

파이 : 정책

저작자표시

공유하기 링크

페이스북
카카오스토리
트위터

Comments

티스토리툴바