LEC 01
Intro
- Concept
2가지로 구분 -> 환경(Environment) & 행동하는 주체(Agent)
Agent가 행동할 수록, 환경 상태 및 정보(state, observation)가 업데이트 되고,
일련의 행동의 결과로 보상(reward)를 받을 수 있다.
- History
Machine Learning, Tom Mitchell, 1997
13장에 Reinforcement Learning이 이미 다루어졌었다.
=> Atari Breakout Game 2013, 2015 화려한 부활!!
벽돌깨기 게임을 방법을 습득하고 훌륭하게 수행한다.
그 뿐 아니라, 다른 게임에도 동일한 알고리즘을 적용할 수 있다. (Atari Games)
- Use
Figure courtesy of Mnih et al. "Human-level control through deep reinforcement learning", Nature 26 Feb. 2015
실제 다수의 게임들에 있어서 인간보다 뛰어난 능력을 보인다.
DeepMind AI Reduces Google Data Centre Cooling Bill by 40%
에너지 절약 방법도 찾아낸다. 무려 40%..
- Robotics : 관절의 움직임
- Business : 재고 관리
- Finance : 주식 의사결정
- E-commerce/media : 컨텐츠 및 광고 추천
Reference:
[1] http://hunkim.github.io/ml/
[2] Lecture 1
'ML&DL > Sung Kim's RL Lecture' 카테고리의 다른 글
LEC 06. Q-Network (0) | 2021.01.08 |
---|---|
LEC 05. Q-learning on Nondeterministic Worlds! (0) | 2021.01.08 |
LEC 04. Q-learning (table) (0) | 2021.01.07 |
LEC 03. Dummy Q-learning (table) (0) | 2021.01.07 |
LEC 02. Playing OpenAI GYM Games (0) | 2021.01.06 |