DRL Course 2023 | Model-Free Reinforcement Learning: Monte-Carlo, SARSA, Q-Learning

Курс Deep Reinforcement Learning 2023: ods.ai/tracks/drlcourse23
Сезон курсов:ods.ai/events/course_season_a...
В четвертой лекции:
- Рассматривается случай MDP с неизвестными функциями награды и перехода между состояниями
- Рассмотрели подход Monte-Carlo и Temporal-Difference для нахождения Q-функции в этом случае
- Обсудили epsilon-жадные политики
- Вывили алгоритмы Monte-Carlo, SARSA и Q-learning
Автор курса: Антон Плаксин, исследователь в группе Yandex.Research и доцент Уральского федерального университета.
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с апдейтами по курсам: t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/mattermost

Пікірлер

    Келесі