LEC 03 에이전트는 사전에 map을 모르는 채로 움직이며, 매 행동이 끝난 뒤에 상태 정보를 받는다. 따라서, 길을 알려주는 행동대장을 따라갈 필요가 있는데, 이때 등장하는 Q형님이 바로 행동대장이다. Frozen Lake 게임을 Q형님과 함께 수행해본다. Q형님에게 입력할 값은 2개 : (1) state 현재 위치 / (2) action 다음에 취할 행동(상하좌우 중 이동할 방향) 그러면, Q형님은 각 행동 별 확률(가능성)을 알려준다. 이제, Q형님의 가르침대로 4방향 중 최대값을 가지는 방향을 찾아 이동하면 된다. Max Q = maxQ(s1, a') : 최대 확률값 argmax Q(s1, a) : 그 최대 확률에 해당하는 행동 (ex. 오른쪽) => Optimal policy * 그렇다면, 이..