rrojin

  • 홈
  • 방명록

exploit and explore 1

LEC 04. Q-learning (table)

LEC 04 1) Exploit&Exploration 2) Random Noise 3) Discounted Future Reward 1) Exploit & Exploration 알고리즘 Lec 03에서의 dumy Q-learning 방식으로는 한 가지 길로만 가게 된다. 따라서, E&E알고리즘(Exploit & Exploration)을 도입하여 여러 경우의 수를 만들어야 한다. Exploit는 이미 알고있는 확률값을 사용하여 액션을 선택하는 것이고, Exploration은 랜덤하게 새로운 도전으로 값을 선택하는 방식이다. Explot과 Exploration의 채택 비중은 E-greedy 방식을 사용하여 정할 수 있다. 슬라이드와 같이 e값을 0.1로 고정한다면, Exploit 90% VS Explorat..

ML&DL/Sung Kim's RL Lecture 2021.01.07
이전
1
다음
더보기
프로필사진

AI Archive/...

  • 분류 전체보기 (68)
    • ML&DL (13)
      • Pattern Recognition and Mac.. (4)
      • Sung Kim's RL Lecture (7)
      • Reinforcement Learning (2)
    • Paper Review (0)
    • Algorithm (39)
      • Baekjoon (30)
      • LeetCode (9)
    • Traffic Simulation (9)
      • SUMO (7)
      • Unity ML-Agents (2)
    • 삽질Log (2)
    • 기타 (5)
    • LifeLog (0)

Tag

netconvert, exploit and explore, 13913, 백준, random noise, overpass turbo, Q-learning, 모두를 위한 RL, Python, discounted future reward, rl, 7562번, container orchestration, 다음 순열, 모두를 위한 RL 강좌 #강화학습 #RL #Q-learning #Windows code, 파이썬, BFS, 알고리즘, Next Permutation, docker swarm,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/10   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바