ML&DL 13

LEC 03. Dummy Q-learning (table)

LEC 03 에이전트는 사전에 map을 모르는 채로 움직이며, 매 행동이 끝난 뒤에 상태 정보를 받는다. 따라서, 길을 알려주는 행동대장을 따라갈 필요가 있는데, 이때 등장하는 Q형님이 바로 행동대장이다. Frozen Lake 게임을 Q형님과 함께 수행해본다. Q형님에게 입력할 값은 2개 : (1) state 현재 위치 / (2) action 다음에 취할 행동(상하좌우 중 이동할 방향) 그러면, Q형님은 각 행동 별 확률(가능성)을 알려준다. 이제, Q형님의 가르침대로 4방향 중 최대값을 가지는 방향을 찾아 이동하면 된다. Max Q = maxQ(s1, a') : 최대 확률값 argmax Q(s1, a) : 그 최대 확률에 해당하는 행동 (ex. 오른쪽) => Optimal policy * 그렇다면, 이..

LEC 02. Playing OpenAI GYM Games

LEC 02 'Frozen Lake' OpenAI GYM 프레임워크를 사용하면 환경(게임)을 사용할 수 있다. Frozen Lake : {F : Frozen Lake H : 구멍 G : Goal} 로 이루어진 맵 위를 움직이는 게임 Agent 의 action(상하좌우 이동)에 따라서 state(좌표), reward(Goal 도착시, 보상)를 반환해준다. LAB 02 - Windows 10 'Frozen Lake' Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 import tensor..

Lec 01. RL Introduction

LEC 01 Intro - Concept 2가지로 구분 -> 환경(Environment) & 행동하는 주체(Agent) Agent가 행동할 수록, 환경 상태 및 정보(state, observation)가 업데이트 되고, 일련의 행동의 결과로 보상(reward)를 받을 수 있다. - History Machine Learning, Tom Mitchell, 1997 13장에 Reinforcement Learning이 이미 다루어졌었다. => Atari Breakout Game 2013, 2015 화려한 부활!! 벽돌깨기 게임을 방법을 습득하고 훌륭하게 수행한다. 그 뿐 아니라, 다른 게임에도 동일한 알고리즘을 적용할 수 있다. (Atari Games) - Use Figure courtesy of Mnih et..