Моргунов Е.Ф.- Лауреат Премии им. Матвеева В.А.

Решение социальных дилемм умного города с использованием мультиагентного обучения с подкреплением.

С развитием интеллектуальных транспортных систем возникает потребность в правильном обучении беспилотных автомобилей для максимизации эффективности городского движения за счет уменьшения пробок и опасных ситуаций на дорогах. Транспортный поток возникает в результате коллективных действий участников дорожного движения, однако далеко не всегда для достижения цели участники будут стремиться к взаимодействию.
В процессе проектирования алгоритмов мультиагентного обучения возможно возникновение социальных дилемм, при которых получение максимальной личной выгоды для агента не соотносится с общей выгодой и коллективными интересами. Социальные дилеммы особенно актуальны для обучения беспилотных автомобилей, для которых необходимо слаженное взаимодействие на дороге. Для транспортного средства предпочтительнее получить максимальную личную награду, как можно быстрее добравшись до цели, однако такое стремление приведет к загруженности траффика и возникновению аварий. Награда в таком случае, на самом деле, будет ниже, чем при скоординированных действиях автомобилей.
В ходе исследования была разработана среда для мультиагентного обучения с подкреплением, используемая для решения социальных дилемм, возникающих в транспортном потоке. Виртуальная среда, в которой обучается алгоритм, написана на языке Python с использованием библиотеки Turtle. Она представляет собой круговую двухполосную дорогу, по которой движутся автомобили против часовой стрелки. Действия автомобилей ограничены выбором скорости и возможностью перестроения между полосами.
Важным аспектом среды является разделение автомобилей на кооператоров и дефекторов. Кооператоры действуют по заданному алгоритму, случайно выбирая скорости и не перестраиваясь между полосами. Дефекторы могут изменять свою скорость и полосу движения на основе полученной информации. У агентов ограничена видимость – они не могут знать общее состояние трафика и точное местоположение всех автомобилей.
Разработанную среду можно считать универсальной - она содержит все необходимые функции, применяемые в обучении нейронных сетей, благодаря чему в ней могут обучаться алгоритмы различной сложности. В данной среде уже протестирован алгоритм глубокого Q-обучения DQN, который эффективно обучает агентов взаимодействовать в транспортном потоке.
Отдельное внимание в исследовании уделяется выявлению и решению социальных дилемм в мультиагентной системе. При правильном обучении агенты способны не только выбирать максимальную возможную скорость, но и координировать свои действия с другими автомобилями путем перестроений и замедления/ускорения. Разработанная система отлично подходит для визуализации единого транспортного потока, в котором минимизировано число аварий и пробок. Проведенное исследование достаточно актуально, поскольку может иметь широкое применение в разработке беспилотных автомобилей и других интеллектуальных систем умного города.