댄코 - 댄싱코딩

[공부] 강화학습 내용 정리 본문

코딩/기계학습

[공부] 강화학습 내용 정리

Jk hila 2018. 5. 29. 01:54

이 글은 책, 한빛미디어의 강화학습 첫걸음을 참조해서 작성되었습니다.


1.강화학습이란?

  • 딥러닝의 한종류
  • 지구의 모든 생물이 공유하며 모든 지능적인 행동의 기반이 되는 관계인 상호관계를 포착해서 공식적인 모델로 만드는것
  • 행위자의 액션이 환경에 영향을 줌. 이에 따라 행위자가 보상을 받게되는 형태



2.강화학습의 세가지 요소

  1. 액션 의존성 : 각 액션은 다른 보상을 가져옴
  2. 시간 의존성 : 보상은 시간이 지연되고 나서야 주어져야함, 보상이 자주 있는것이 아니라 드문드문 있음.
  3. 상태 의존성 : 어떤 액션에 대한 보상은 환경의 상태에 좌우됨. 적절한 액션을 취하기 위해 환경의 특성을 이해해야함


3. 정책 : 

주어진 환경의 어떤 상황에서 어떤 행위자가 취하게 되는 일련의 액션

-행위자가 주어진 황경 내에서 최대의 보상을 얻는 정책을 최적의 정책으로 간주

정책 방적식 : 

A : 어드밴티지, 액션이 어떤 기준선 보다 얼마나 더 나은지의 정도

파이 : 정책


Comments