Курс Deep Reinforcement Learning 2023:
Сезон курсов:
В четвертой лекции:
- Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями
- Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае
- Обсудили epsilon-жадные политики
- Вывили алгоритмы Monte-Carlo, SARSA и Q-learning
Автор курса: Антон Плаксин, исследователь в группе и доцент Уральского федерального университета.
Наши соц.сети:
Telegram:
Вконтакте:
Канал с вакансиями в telegram:
Канал с апдейтами по курсам:
Как попасть в чат сообщества ODS Mattermost: