DRL Course | Dynamic Programming. Policy and Value Iterations

Курс Deep Reinforcement Learning: Сезон курсов: В третьей лекции: Поговорили про принцип динамического программирования; Рассмотрели понятия v- и q-функций, а также понятия оптимальной политики; Выписали уравнения Белламана и научились их решать методами Policy Iteration и Value Iteration. Наши соц.сети: Telegram: Вконтакте:

1 view