Читаем онлайн «Обучение с подкреплением для реальных задач»

Reinforcement Learning
Industrial Applications of Intelligent Agents
Phil Winder, Ph.D.
Beijing • Boston • Farnham • Sebastopol • Tokyo
O’REILLY
Фил Уиндер
Обучение
с подкреплением
для реальных задач
Инженерный подход
Санкт-Петербург
«БХВ-Петербург»
2023
УДК 004.43
ББК 32.973.26-018.1
У37
У37
Уиндер Ф.
Обучение с подкреплением для реальных задач: Пер. с англ. — СПб.:
БХВ-Петербург, 2023. — 400 с.: ил.
ISBN 978-5-9775-6885-2
Книга посвящена промышленно-ориентированному применению обучения
с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промыш
ленные и научные системы решению любых пошаговых задач методом проб и
ошибок— без подготовки узкоспециализированных учебных множеств данных
и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские
процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисле
ние, методы устранения энтропии и многое другое. Данная книга — первая на рус
ском языке, где теоретический базис RL и алгоритмы даны в прикладном, отрасле
вом ключе.
Для аналитиков данных
и специалистов по искусственному интеллекту
УДК 004.43
ББК 32.973.26-018.1
Группа подготовки издания:
Руководитель проекта
Зав редакцией
Перевод с английского
Редактор
Компьютерная верстка
Оформление обложки
Олег Сивченко
Людмила Гаулъ
Екатерины Черских
Анна Кузьмина
Ольги Сергиенко
Зои Канторович
© 2022 BHV
Authorized Russian translation of the English edition of Reinforcement Learning ISBN 9781098114831
© 2021 Winder Research and Development Ltd
This translation is published and sold by permission of O’Reilly Media, Inc , which owns or controls all rights to publish
and sell the same
Авторизованный перевод с английского языка на русский издания Reinforcement Learning ISBN 9781098114831
© 2021 Winder Research and Development Ltd
Перевод опубликован и продается с разрешения компании-правообладателя O’Reilly Media, Inc
Подписано в печать 29.07 22
Формат 70x1001Лб Печать офсетная. Усл печ л 32,25
Тираж 1300 экз Заказ № 5077
"БХВ-Петербург", 191036, Санкт-Петербург, Гончарная ул , 20
Отпечатано с готового оригинал-макета
ООО "Принт-М", 142300, М О , г Чехов, ул Полиграфистов, д 1
ISBN 978-1-098-11483-1 (англ.)
ISBN 978-5-9775-6885-2 (рус.)
© Winder Research and Development Ltd , 2021
© Перевод на русский язык, оформление
ООО "БХВ-Петербург", ООО "БХВ", 2023
Оглавление
Отзывы.................................................................................................................................................. 15
Об авторе.............................................................................................................................................. 19
Предисловие....................................................................................................................................... 21
Цель.......................................................................................................................................................... 21
Кому следует прочитать эту книгу?................................................................................................... 22
Руководящие принципы и стиль.........................................................................................................22
Предварительная подготовка............................................................................................................... 24
Объем и план...........................................................................................................................................24
Дополнительные материалы................................................................................................................ 25
Условные обозначения, используемые в этой книге...................................................................... 26
Аббревиатуры................................................................................................................................... 26
Математические обозначения........................................................................................................27
Глава 1. Для чего нужно обучение с подкреплением?.................................................... 29
Почему сейчас?.......................................................................................................................................30
Машинное обучение.............................................................................................................................. 31
Обучение с подкреплением................................................................................................................. 32
Когда следует использовать обучение с подкреплением?...................................................... 33
Варианты применения обучения с подкреплением.................................................................. 35
Таксономия подходов обучения с подкреплением..........................................................................37
Без модели или на основе модели................................................................................................ 37
Как агенты используют и обновляют свою стратегию............................................................. 38
Дискретные или непрерывные действия.................................................................................... 39
Методы оптимизации..................................................................................................................... 39
Оценка и улучшение политики..................................................................................................... 40
Фундаментальные концепции обучения с подкреплением........................................................... 41
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и