DRL Course | Dynamic Programming. Policy and Value Iterations
Курс Deep Reinforcement Learning:
Сезон курсов:
В третьей лекции:
Поговорили про принцип динамического программирования;
Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики;
Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration.
Наши соц.сети:
Telegram:
Вконтакте: