Как тренировать ИИ-агентов с помощью Project Bonsai от Microsoft

Как тренировать ИИ-агентов с помощью Project Bonsai от Microsoft

Компания AnyLogic и команда Project Bonsai от Microsoft вместе работают над тем, чтобы помочь бизнесу решать задачи с помощью машинного обучения. Мы совместно создали инструмент, который позволяет подключать модели к Microsoft Project Bonsai и использовать модели в качестве тренажеров для ИИ-агентов.

Это перевод статьи Араша Махдави, нашего коллеги и тимлида команды по объединению возможностей ИМ и ИИ. Оригинал статьи >>


Что такое глубокое обучение с подкреплением?

При обучении с подкреплением (reinforcement learning, RL) ИИ-алгоритмы обучаются не на размеченных данных, а самостоятельно, в процессе взаимодействия с окружающей средой. Этот подход основан на идее представления задачи в виде Марковских процессов принятия решений, где ИИ-агент – специальный алгоритм – учится принимать оптимальное решение в зависимости от текущего состояния.

Объединение возможностей нейронных сетей и обучения с подкреплением (отсюда и название – глубокое обучение с подкреплением, deep reinforcement learning, DRL) позволяет решать сложные задачи. Первоначально DRL продемонстрировало успехи при обучении ИИ-агентов простым играм, например, аркадной видеоигре Pong. Когда команда игроков AlphaGo от компании Deepmind одержала победу над чемпионом мира по этой игре, Ли Седолем, это стало убедительным доказательством потенциала DRL.

Системы с DRL обязательно включают 2 части: обучающегося агента (искусственный мозг) и среду для обучения агентов (тренажер).

Обучающийся агент

Разработка алгоритмов обучения и архитектуры нейронной сети - непростая задача. Для этого нужно уметь программировать, а также понимать, как работают алгоритмы, глубокое обучение и обучение с подкреплением. Эти условия делают RL одной из самых сложных областей машинного обучения (machine learning, ML) для новичков.

Среда для обучения агентов

Исследователи DRL c самого начала понимали, что разработка надежных сред обучения потребует много ресурсов. Поэтому компания OpenAI, занимающаяся разработками в сфере ИИ, создала библиотеку примеров таких сред. Их можно было использовать, чтобы лучше изучить RL и повысить производительность новейших алгоритмов. Вскоре после этого OpenAI добавила больше примеров моделей, основанных на физике, в виде простых роботизированных систем или игр, использующих преимущества встроенных физических движков. Однако, до сегодняшнего дня большинство из этих примеров не выходили за рамки игрушечных сред для тестирования возможностей обучения ИИ.


Как Project Bonsai и его подход machine teaching помогает бизнесу применять RL

Основная цель Project Bonsai – помочь профильным экспертам без опыта в сфере ИИ, например, юристам, бухгалтерам, врачам, менеджерам или инженерам на производстве создавать и обучать ИИ-алгоритмы. Для работы с системой не нужно знать особенности работы RL.

Project Bonsai использует подход под названием “machine teaching”; он помогает экспертам в предметной области разбивать проблему на более простые задачи и давать моделям машинного обучения важные подсказки о том, как быстрее найти решение. Для этого механизм Project Bonsai сначала обучается на простых задачах, а затем объединяет полученные знания для достижения конечной цели. Такой подход значительно сокращает время обучения модели.

Платформа Project Bonsai работает на основе облачного сервиса Microsoft Azure, поэтому подойдет для решений, требующих больших компьютерных мощностей.


ИМ AnyLogic и Project Bonsai

Мы уже говорили, что почти все доступные на данный момент среды, или тренажеры, для обучения ИИ-алгоритмов представляют собой игры, тестовые примеры или физические модели. В отличие от них среды для динамического моделирования позволяют имитировать реальные бизнес-системы. С помощью AnyLogic, лидера на рынке продуктов для ИМ, пользователи решают самые сложные бизнес-задачи. Теперь же они могут использовать возможности платформы Project Bonsai и создавать виртуальные среды на основе технологий ИИ: внедрять в модели самообучающихся ИИ-агентов, генерировать синтетические данные и тестировать работу систем ИИ в реалистичной и безрисковой среде.

Чтобы упростить модификацию имитационных моделей в обучающие среды (тренажеры), мы добавили в AnyLogic специальный инструмент – библиотеку для интеграции существующих моделей с платформой Бонсай.


Особенности моделей с RL-элементами

Во время работы имитационная модель с элементами RL позволяет ИИ-агенту, работающему на платформе Project Bonsai, принимать часть решений на себя. Такой подход помогает агенту обучаться на основе синтетических данных, которые генерирует модель.

Для подключения модели к ИИ-агентам нужно, чтобы:

  • в модели можно было задавать начальную конфигурацию перед каждым запуском. В разных состояниях окружающей среды ИИ-агент научится большему количеству стратегий;
  • модель могла останавливаться в моменты принятия важных решений. Такие остановки могут задаваться временными интервалами (например, каждые 6 часов) или наступлением определенных событий в модели;
  • модель могла наблюдать за изменениями и передавать свое текущее состояние ИИ-агенту. Каждое наблюдение представляет собой одно или несколько числовых значений, которые отражают текущее состояние модели в краткой форме;
  • модель могла совершать действия, которые выбрал ИИ-агент.

Перед началом работы модели ее нужно соединить с платформой Project Bonsai с помощью подключаемой библиотеки.


Как начать?

Мы подготовили две демо-модели, которые можно использовать в качестве учебной среды (тренажера). Вам не нужно скачивать ИИ-библиотеку: к модели уже подключена специальная оболочка для легкого соединения с платформой Project Bonsai, и они готовы к работе.

Модель Activity-Based Costing Analysis

Упрощенная модель производства. В ней себестоимость продукции анализируется в соответствии со стоимостью каждой отдельно взятой операции (методика расчёта себестоимости по видам деятельности, англ. Activity-based costing, ABC). Каждый входящий продукт захватывает ресурсы, обрабатывается, передается по станциям, а затем освобождает ресурсы. Затраты на производство продукции разбиты на категории для лучшего анализа и оптимизации. Цель моделирования – снизить себестоимость продукта при сохранении высоких объемов производства.

Модель Product Delivery

Цепь поставок включает три предприятия и пятнадцать дистрибьюторов, которые заказывают случайное количество продукта каждые 2-10 дней. После получения заказа от дистрибьютора каждое предприятие ожидает, пока не будет создано достаточное количество продукта для выполнения заказа (если его недостаточно в текущем запасе), а затем отправляет товар дистрибьюторам. Цель моделирования – снизить себестоимость продукта и при этом сократить среднее время доставки.

Библиотека для соединения моделей с платформой Project Bonsai, оболочка для моделей и руководство пользователя (в котором объясняются этапы подготовки симулятора Project Bonsai), а также два примера моделей доступны для загрузки. Полная документация содержится в файле README.md.


Получить доступ к превью платформы Project Bonsai >>


После получения доступа прочитайте инструкцию по использованию. В ней мы рассказываем, как:

  • cоздавать ИИ-агента в платформе Project Bonsai;
  • запускать модель на своем компьютере и передавать информацию из нее ИИ-агенту;
  • выгружать модель и запускать процесс тренировки на мощностях Microsoft Azure.

Мы в AnyLogic стремимся объединить возможности имитационных моделей и глубокого обучения, чтобы бизнес мог использовать их для решения реальных задач. Мы хотим, чтобы ИИ-модели могли создавать даже те, у кого нет опыта в работе с ИИ.

Наша команда выпустит новые демо-модели и обучающие материалы на эту тему в ближайшие месяцы. Подписывайтесь на ежемесячные новости, чтобы быть в курсе.

28 июля совместно с командой Project Bonsai мы проводим вебинар по объединению возможностей ИИ и ИМ. Не пропустите!

Похожие материалы