rrojin

  • 홈
  • 방명록

모두를 위한 RL 강좌 #강화학습 #RL #Q-learning #Windows code 1

LEC 03. Dummy Q-learning (table)

LEC 03 에이전트는 사전에 map을 모르는 채로 움직이며, 매 행동이 끝난 뒤에 상태 정보를 받는다. 따라서, 길을 알려주는 행동대장을 따라갈 필요가 있는데, 이때 등장하는 Q형님이 바로 행동대장이다. Frozen Lake 게임을 Q형님과 함께 수행해본다. Q형님에게 입력할 값은 2개 : (1) state 현재 위치 / (2) action 다음에 취할 행동(상하좌우 중 이동할 방향) 그러면, Q형님은 각 행동 별 확률(가능성)을 알려준다. 이제, Q형님의 가르침대로 4방향 중 최대값을 가지는 방향을 찾아 이동하면 된다. Max Q = maxQ(s1, a') : 최대 확률값 argmax Q(s1, a) : 그 최대 확률에 해당하는 행동 (ex. 오른쪽) => Optimal policy * 그렇다면, 이..

ML&DL/Sung Kim's RL Lecture 2021.01.07
이전
1
다음
더보기
프로필사진

AI Archive/...

  • 분류 전체보기 (68)
    • ML&DL (13)
      • Pattern Recognition and Mac.. (4)
      • Sung Kim's RL Lecture (7)
      • Reinforcement Learning (2)
    • Paper Review (0)
    • Algorithm (39)
      • Baekjoon (30)
      • LeetCode (9)
    • Traffic Simulation (9)
      • SUMO (7)
      • Unity ML-Agents (2)
    • 삽질Log (2)
    • 기타 (5)
    • LifeLog (0)

Tag

13913, 백준, 알고리즘, overpass turbo, 파이썬, 모두를 위한 RL 강좌 #강화학습 #RL #Q-learning #Windows code, Next Permutation, random noise, netconvert, Python, 다음 순열, exploit and explore, 모두를 위한 RL, docker swarm, discounted future reward, container orchestration, rl, 7562번, Q-learning, BFS,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바