От Quake III до Dota 2: настоящая причина, по которой DeepMind и OpenAI учат ИИ осваивать игры

Обобщенное обучение роботов
Next Big Thing Newsletter

Как освоение игр помогает ИИ делать шаги для того, чтобы справиться с реальной сложностью.

Роботы и ИИ могут все еще бороться со многими задачами, которые людям кажутся простыми, но они беспокоят людей, когда дело доходит до игр.

Будь то древний Китайская настольная игра Go или классическая аркадная игра Breakout Машины научены играть в игры на уровне, на котором люди просто не могут сравниться.

ВИДЕТЬ: Исследования: компаниям не хватает навыков для внедрения и поддержки искусственного интеллекта и машинного обучения (Tech Pro Research)

Чтобы сделать эти прорывные организации, такие как Google DeepMind и OpenAI, использовали усиленное обучение, в рамках которого система изучает технологии с использованием метода проб и ошибок в течение огромного количества игр.

Этот акцент на играх может показаться тривиальным, но, по словам Тоби Симпсона, бывшего руководителя разработки программного обеспечения DeepMind, который был частью первоначальной команды в компании, каждая игра является ступенькой на пути роботов, выполняющих реальные задачи.

«Вы играете в простую игру сегодня, вы играете в сложную игру завтра, и прежде чем вы узнаете об этом, вы в реальной жизни», - сказал он.

Симпсон ссылается на быстрый прогресс, достигнутый DeepMind в освоении все более сложных игр.

В 2015 DeepMind сообщал, что его системы достигли превосходных результатов в относительно простых 2D играх для Atari 2600 консоль 1970-х годов. Тем не менее, в 2018 году его системы обучения подкреплению сойдутся с людьми в гораздо более сложных виртуальных мирах.

Только На прошлой неделе DeepMind сообщил, что его агенты ИИ научились играть в многопользовательский 3D-шутер от первого лица в 1999 году на Quake III Arena, что достаточно для того, чтобы побеждать команды игроков-людей. , Эти агенты узнали, как играть в игру, используя не больше информации, чем люди-игроки. Их единственным входным сигналом были пиксели на экране, когда они пробовали случайные действия в игре, и отзывы о своей производительности во время каждой игры.

Их единственным входным сигналом были пиксели на экране, когда они пробовали случайные действия в игре, и отзывы о своей производительности во время каждой игры

Агенты Google DeepMind обучаются игре Capture the Flag.

Изображение: Google DeepMind

К концу тренировочного процесса эти агенты ИИ смогли координировать свои действия с другими ботами и игроками-людьми, чтобы побить другие команды игроков-людей в игре. Мало того, что они независимо изучили правила игры, но они также овладели тактикой, используемой людьми, такими как базовый кемпинг и последующие товарищи по команде.

«Каждая из этих сред становится все более сложной и реальной, и они открывают для этих систем обучения, этих агентов миры, которые становятся все более и более похожими на реальную жизнь», - сказал Симпсон, который с тех пор стал соучредителем. Fetch.ai, который создал то, что он называет адаптивной, самоорганизующейся «умной бухгалтерской книгой» для поддержки новых бизнес-моделей.

«Со временем вы можете видеть, что именно к этому они и идут. Так что да, это очень увлекательно. Игры просто фантастические, потому что вы можете делать эти шаги по одному, все ближе и ближе к реальности, пока вы достичь цели."

Исследовательская группа ИИ OpenAI имеет достигли столь же впечатляющих результатов против одиночных игроков в многопользовательской онлайн-игре Dota 2 и хочет еще больше усугубить этот вызов. В августе исследовательская группа из OpenAI планирует собрать пять нейронных сетей, названных OpenAI Five, против команды лучших профессиональных игроков Dota 2 на The International, ежегодном турнире Dota, который привлекает лучших игроков со всего мира.

Хотя по сравнению с обычной игрой в Dota 2 все еще будут ограничения, начиная от количества доступных героев и заканчивая отключением определенных игровых механизмов, соревнование в турнирах 5 на 5 в турнире будет серьезной проблемой.

«Dota 2 является одним из самых популярных и сложный киберспорт игры в мире, с творческими и мотивированными профессионалами, которые поезд круглый год, чтобы заработать часть ежегодного призового фонда Dota в размере 40 миллионов долларов, "OpenAI" написал в недавнем сообщении в блоге ,

Обучить ботов играть в Dota 2 - очень сложная задача. Каждый день OpenAI Five учится, играя в игры, эквивалентные играм на 180 лет против самого себя, используя новый класс алгоритмов обучения с подкреплением, называемый Proximal Policy Optimization, в системе, состоящей из 256 графических процессоров и 128000 процессорных ядер.

И снова, игра в игры - серьезный бизнес, и OpenAI ориентируется на возможные реальные приложения.

«По сравнению с предыдущими вехами ИИ, такими как« Шахматы »или« Го », сложные видеоигры начинают отражать беспорядок и непрерывный характер реального мира», - пишет он.

«Надежда состоит в том, что системы, которые решают сложные видеоигры, будут очень общими, с приложениями вне игр».

Некоторые из сложных способов поведения, необходимых для освоения Dota 2, которые имеют практическую применимость, включают оценку долгосрочных стратегических последствий решений, вывод о том, что может произойти на основе неполных данных, возможность взвешивания огромного количества возможных действий и рассмотрение очень большое количество переменных, которые представляют это текущее состояние мира.

Поскольку освоенные игры становятся все более сложными, Симпсон считает, что такие системы могут в конечном итоге послужить основой для обучения роботов тому, как справляться с непредсказуемостью реального мира, который традиционно был слишком запутанным для компьютеров, чтобы справиться с ним. принимать довольно слабые футбольные навыки участников в RoboCup этого года , например.

«Речь идет о том, чтобы обучающие системы могли все больше взаимодействовать с реальным миром», - сказал он.

«Одна из вещей, в которых люди действительно хороши, это взаимодействие с действительно, действительно сложными пространствами, для которых у них не было никакого предварительного воздействия. Я сижу здесь на стуле, которого я никогда раньше не видел, и все же каким-то образом я я пью воду из стакана, которого я никогда раньше не видела, но я все еще могу сделать это, не проливая ее.

«Компьютеры не могут делать такие вещи, они действительно не могут делать такие вещи. Вы смотрите, как роботы представляют среду, которую они не видели, они спотыкаются и спотыкаются, они терпят неудачу и делают смешные ошибки».

«Мы все видели видео о том, как роботы пытаются налить чашку чая, вам нужно только повернуть чайник, и это станет полной катастрофой».

Обобщенное обучение роботов

Google уже использует подходы машинного обучения, аналогичные тем, которые используются DeepMind для освоения игр, чтобы разрабатывать роботов, способных наблюдать за окружающим миром и определять оптимальный курс действий, а также реагировать на неожиданные результаты.

Используя распределенную систему обучения глубокого подкрепления, Google смог обучить руки робота тому, как надежно захватывать отдельные предметы выбирая их из большой грязной груды объектов разных форм и размеров. Система смогла извлечь уроки из каждой из 580 000 попыток захвата каждым из семи роботов, которые ее использовали. Конечным результатом было то, что манипуляторы робота были способны выбирать объекты с точностью 96% - значительное улучшение по сравнению с точностью 78%, достигнутой с помощью более раннего контролируемого подхода к обучению.

Исследователи Google, участвующие в проекте, заявили, что используемый алгоритм QT-Opt является «серьезным шагом на пути к более общим алгоритмам обучения роботов», и что они «взволнованы, увидев, к каким другим задачам робототехники мы можем его применить».

Симпсон считает, что такие достижения в конечном итоге позволят нам разработать роботов, которые могут работать вместе с людьми в реальном мире.

«Работая со всеми этими вещами, заставляя эти системы лучше взаимодействовать со все более сложными и более реальными средами, вы в конечном итоге делаете эти шаги в направлении более интеллектуальных средств общего назначения, способных взаимодействовать с пространством, в котором мы находимся», - сказал он. ,

«Это не только то, что увеличивает то, что мы можем сделать, но и позволяет этим вещам помогать нам по-новому».

Подробнее:

Next Big Thing Newsletter

Будьте в курсе умных городов, искусственного интеллекта, Интернета вещей, виртуальной реальности, автономного вождения, беспилотных летательных аппаратов, робототехники и других самых крутых технологических инноваций. Доставка по средам и пятницам

Зарегистрироваться Сегодня

Успенский Кафедральный Собор

Иоанно-Предтеченский Монастырь

Троицкий собор

От Quake III до Dota 2: настоящая причина, по которой DeepMind и OpenAI обучают искусственный интеллект мастерам игр

Обобщенное обучение роботов

Next Big Thing Newsletter

Похожие

Разделы

Анонсы

Новости

Смс-сервис

Форум

Вход на сайт

Фото Дня

Конкурсы

Календарь

Публикации