LEC 04 1) Exploit&Exploration 2) Random Noise 3) Discounted Future Reward 1) Exploit & Exploration 알고리즘 Lec 03에서의 dumy Q-learning 방식으로는 한 가지 길로만 가게 된다. 따라서, E&E알고리즘(Exploit & Exploration)을 도입하여 여러 경우의 수를 만들어야 한다. Exploit는 이미 알고있는 확률값을 사용하여 액션을 선택하는 것이고, Exploration은 랜덤하게 새로운 도전으로 값을 선택하는 방식이다. Explot과 Exploration의 채택 비중은 E-greedy 방식을 사용하여 정할 수 있다. 슬라이드와 같이 e값을 0.1로 고정한다면, Exploit 90% VS Explorat..