Recent Posts
Recent Comments
Archives
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 다이나믹 프로그래밍
- 넓이 우선 탐색
- 그래프
- 동적계획법
- 삼성 알고리즘
- dp
- ubuntu
- dfs
- 아파치
- 백준
- 공연
- BFS
- 시뮬레이션
- Visual Studio Code
- sw expert academy
- BOJ
- C++
- baek joon
- Graph
- 배틀
- 춤
- apache
- 알고리즘
- filezila server
- Algorithm
- 비주얼 스튜디오 코드
- 우분투
- simulation
- dynamic programming
- cube sound
Link
댄코 - 댄싱코딩
[공부] 강화학습 내용 정리 본문
이 글은 책, 한빛미디어의 강화학습 첫걸음을 참조해서 작성되었습니다.
1.강화학습이란?
- 딥러닝의 한종류
- 지구의 모든 생물이 공유하며 모든 지능적인 행동의 기반이 되는 관계인 상호관계를 포착해서 공식적인 모델로 만드는것
- 행위자의 액션이 환경에 영향을 줌. 이에 따라 행위자가 보상을 받게되는 형태
2.강화학습의 세가지 요소
- 액션 의존성 : 각 액션은 다른 보상을 가져옴
- 시간 의존성 : 보상은 시간이 지연되고 나서야 주어져야함, 보상이 자주 있는것이 아니라 드문드문 있음.
- 상태 의존성 : 어떤 액션에 대한 보상은 환경의 상태에 좌우됨. 적절한 액션을 취하기 위해 환경의 특성을 이해해야함
3. 정책 :
주어진 환경의 어떤 상황에서 어떤 행위자가 취하게 되는 일련의 액션
-행위자가 주어진 황경 내에서 최대의 보상을 얻는 정책을 최적의 정책으로 간주
정책 방적식 :
A : 어드밴티지, 액션이 어떤 기준선 보다 얼마나 더 나은지의 정도
파이 : 정책
Comments