Авторизоваться
Аким Солянкин 27.11.2021 Опубликована

Применение обучения с подкреплением для самоуправляемых автомобилей 

Широко распространенный подход к применению искусственного интеллекта для беспилотных автомобилей - это контролируемое обучение и, прежде всего, для решения условий восприятия. Но беспилотный автомобиль очень похож на робота и агента в подходе к обучению с подкреплением (RL). Можем ли мы заменить контролируемое обучение подходом к обучению с подкреплением? Недостатком контролируемого подхода является предвзятость человека, вовлеченного во весь процесс ИИ, от сбора данных до развертывания модели.

Взаимодействие с окружающей средой является наиболее важной задачей самоуправляемого автомобиля. Восприятие - это первый шаг, который в настоящее время основан на искусственном интеллекте, и применяется контролируемый подход. При таком подходе необходимо учитывать, что транспортное средство движется в открытой контекстной среде, и вам необходимо обучить свою модель всем возможным сюжетам и сценариям в реальном мире. Разнообразие сюжетов и сценариев - основная трудность, которую должны решить Tesla, Waymo и Cruise, собирая все больше и больше данных и проверяя работу системы на основе собранных данных. Как мы можем гарантировать, что беспилотный автомобиль уже изучил все возможные сценарии и безопасно справляется с любой ситуацией?

Обучение с подкреплением

Обучение с подкреплением (RL) может быть решением этой проблемы. Метод RL означает, что агент собирает информацию об окружающей среде и переключается из одного состояния в другое на основе определенной политики для максимизации вознаграждения. Какие действия выполняет агент как мозг беспилотного автомобиля? Чтобы не усложнять задачу, три действия - ускорение, замедление и рулевое управление - являются наиболее важными действиями, влияющими на динамику транспортного средства и безопасность дорожного движения. Самое рискованное решение - рулевое управление, а наименее критическое - торможение. Как мы можем определить политику и функцию вознаграждения в процессе обучения с подкреплением для агента как водителя?

Функция вознаграждения

Чтобы определить функцию вознаграждения, мы можем рассмотреть различные аспекты, такие как энергопотребление, безопасность всех участников дорожного движения или лучший способ навигации, позволяющий быстрее добраться до места назначения и при этом оставаться безопасным. Мы должны различать краткосрочные вознаграждения, такие как безопасное вождение, и долгосрочное вознаграждение, например, более раннее достижение цели. Агент, в данном случае беспилотный автомобиль, должен следить за окружающей средой и понимать, какое новое состояние может получить максимальное вознаграждение, например, ускорение, замедление или поворот, а также все другие связанные параметры и варианты.

Общество не приемлет слишком медленного и консервативного вождения или частого торможения беспилотным автомобилем. Есть два решения для реагирования на критическое для безопасности событие. Первое - возвращение в старое безопасное состояние, а второе ищет новое «безопасное состояние». Поскольку неясно, является ли предыдущее «безопасное состояние» по-прежнему безопасным, поиск нового «безопасного состояния» является единственным надежным решением, а более старое безопасное состояние является решением среди всех других возможных условий. Однако, если агент решит вернуться к состоянию в прошлом, ему потребуется новая оценка вознаграждения, и существующее вознаграждение больше не будет действительным.

Задача состоит в том, чтобы найти временной интервал для проведения новой оценки вознаграждения параллельно с другими действиями агента. Награды меняются со временем в зависимости от ситуации и динамики движения. В целом, соблюдение безопасного расстояния от других транспортных средств в дорожном движении может быть вознаграждено более высокой ценностью. Эта аргументация похожа на ненужное торможение, которое сокращает расстояние до автомобиля, следующего за беспилотным автомобилем.

Наблюдение за окружающей средой

Беспилотный автомобиль собирает соответствующую информацию об окружающей среде, такую ​​как тип дороги или дорожные знаки, с помощью датчиков в автомобиле или получает ее удаленно от других транспортных средств или инфраструктуры. Можно ли измерить всю необходимую информацию с помощью беспилотного автомобиля? Нет, по крайней мере, без исторических данных типа стиля вождения. Как мы можем определить, взаимодействуют ли беспилотные автомобили с другими водителями на дороге со смешанным движением или другими беспилотными транспортными средствами?

Мы должны ответить на такие вопросы, прежде чем разрабатывать какой-либо агент для автономного вождения, основанный на подходе обучения с подкреплением. Общество не смирится с тем, что агент долгое время отказывается сотрудничать и что нам необходимо измерять и контролировать такое поведение.

Похоже, что использование контролируемого обучения для мониторинга окружающей среды по-прежнему является правильным решением. Нам нужно уменьшить сложность принятия решений агентом, отделив часть восприятия от части принятия решений. Все данные, собранные датчиками окружающей среды, должны быть помечены и связаны с соответствующим маневром, чтобы облегчить процесс проектирования обучения с подкреплением.

Подбор политики для агента

Выбрать оптимизированную политику для агента в качестве автоматизированного средства сложно из-за множества возможных сценариев. Агент должен решать различные проблемы в зависимости от ситуации с трафиком и находить соответствующий ответ или политику, основанную на этой ситуации. В случае более чем одной действующей политики агент должен гибко переключаться между другими адекватными политиками или комбинировать несколько политик для расчета вознаграждений для следующих возможных состояний.

Как описано в документе, одним из возможных решений для поиска наилучшей политики является использование поведения опытных водителей и соответствующего дистрибутива в качестве эталона и попытка воспроизвести это поведение с помощью агента. Однако в этой статье анализируется конкретный сценарий «уклонения от статических препятствий» для вождения, подобного человеку, с глубоким обучением с подкреплением. Необходимо обсудить, как его можно распространить на все возможные сценарии.

Другое решение - иерархический подход. Выбираются все поддерживаемые маневры, такие как движение по полосе, переход на правую полосу и переход на левую полосу. Каждый маневр имеет свою политику и состояния, и их следует изучать отдельно, а также должна существовать основная политика для выбора правильного маневра. Это решение описывает многоагентный RL, и в любой момент времени активен только один агент, и нам нужны дополнительные данные для переключения между всеми агентами.

Однако разделение маневров не решает сложностей автономного вождения, поскольку мы также должны утверждать, что все маневры, включая все варианты, уже учтены в процессе проектирования и тестирования, и что переключение между маневрами также выполняется безопасно. Следовательно, такой подход вряд ли обеспечит полностью автономный автомобиль, способный конкурировать в любой ситуации и сценарии.

Вождение автомобиля - сложная задача, и для обеспечения безопасного вождения требуется минимальный уровень интеллекта, поскольку у нас уже есть правила получения водительских прав. Многие параметры, такие как параметры динамики транспортного средства, такие как скорость, ускорение, положение, наклон и т.д., а также параметры окружающей среды влияют на маневр вождения. Область оперативного проектирования (ODD) должна указывать параметры, влияющие на подход к обучению с подкреплением. Множественные маневры вождения - это только один аспект в области проектирования, и нам нужно изучать RL с учетом всех параметров, основанных на ODD.

Коментарии
Авторизоваться что-бы оставить комментарий
Присоединяйся в тусовку
Наш сайт использует файлы cookie для вашего максимального удобства. Пользуясь сайтом, вы даете свое согласие с условиями пользования cookie