Летом 2021 года OpenAI тихо закрыла свою команду робототехники, объявив, что прогресс затрудняется из-за недостатка данных, необходимых для обучения роботов, как двигаться и мыслить с использованием искусственного интеллекта.
Теперь три исследователя OpenAI заявляют, что стартап, который они отделили в 2017 году под названием Covariant, решил эту проблему и представил систему, объединяющую навыки рассуждения больших языковых моделей с физической ловкостью продвинутого робота.
Новая модель, названная RFM-1, обучалась на годах данных, собранных из небольшого парка роботов по сбору товаров, которые используют клиенты, такие как Crate & Barrel и Bonprix, в складах по всему миру, а также слов и видео из интернета. В ближайшие месяцы модель будет представлена клиентам Covariant. Компания надеется, что система станет более способной и эффективной, когда ее задействуют в реальном мире.
Что она может делать?
На демонстрации сооснователи Covariant Питер Чен и Питер Аббил показали, как пользователи могут активировать модель, используя пять различных типов ввода: текст, изображения, видео, инструкции робота и измерения.
На демонстрации сооснователи Covariant Питер Чен и Питер Аббил показали, как пользователи могут активировать модель, используя пять различных типов ввода: текст, изображения, видео, инструкции робота и измерения.
Например, покажите ей изображение бака, наполненного спортивным инвентарем, и скажите ей взять упаковку теннисных мячей. Робот может затем взять предмет, сгенерировать изображение того, как будет выглядеть бак после того, как теннисные мячи исчезнут, или создать видео, показывающее вид сверху, как робот будет выполнять задачу.
Если модель предсказывает, что она не сможет правильно взять предмет, она даже может ответить: "Я не могу хорошо взять. У вас есть какие-нибудь советы?" Ответ может посоветовать использовать определенное количество вакуумных присосок на его руках для лучшего захвата - восемь вместо шести, например.
Это представляет собой скачок вперед, - сказал Чен, - в роботах, способных адаптироваться к окружающей среде с использованием данных обучения, а не сложного, специфического для задач кода, который питал предыдущее поколение промышленных роботов. Это также шаг к рабочим местам, где менеджеры могут давать инструкции на человеческом языке, не беспокоясь о ограничениях человеческого труда.
Леррел Пинто, исследователь, управляющий лабораторией общего назначения по робототехнике и искусственному интеллекту в Нью-Йоркском университете и не имеющий связей с Covariant, говорит, что, хотя робототехники ранее создавали базовые мультимодальные роботы и использовали их в лабораторных условиях, развертывание такого в масштабе, способного общаться в таком множестве режимов, является впечатляющим достижением для компании.
Чтобы опередить конкурентов, Covariant должна получить достаточно данных для того, чтобы робот стал полезным в дикой природе, - сказал мне Пинто. Складские помещения и погрузочные доки - это места, где он будет испытан, постоянно взаимодействуя с новыми инструкциями, людьми, объектами и окружающей средой.
"Группы, которые будут обучать хорошие модели, будут те, которые имеют доступ к уже большим объемам данных робота или способности генерировать эти данные," - говорит он.
Covariant говорит, что модель обладает "подобной человеку" способностью рассуждать, но у нее есть свои ограничения. Во время демонстрации, когда робота попросили "вернуть банан в контейнер два", он боролся с повторением своих действий, что привело его к тому, что он взял губку, затем яблоко, затем множество других предметов, прежде чем, наконец, справился с задачей с бананом.
"Он не понимает новое понятие", - пояснил Чен, - "но это хороший пример - он может пока что плохо работать в местах, где у вас нет хороших данных обучения".
Новая модель компании олицетворяет парадигмальный сдвиг, проходящий через мир робототехники. Вместо того чтобы фокусироваться на предопределенных задачах и жестко заданных сценариях, Covariant стремится создать роботов, способных обучаться и адаптироваться к новым ситуациям, как это делают люди. Это открывает новые возможности для применения роботов в различных сферах, от складского хозяйства до производства.
Однако, чтобы успешно конкурировать на рынке, Covariant должна продолжать совершенствовать свои алгоритмы и модели, а также расширять доступ к данным для обучения. Это поможет роботам лучше функционировать в различных средах и с разными типами задач.
Несмотря на ограничения и вызовы, перед которыми стоит Covariant, их подход к разработке роботов с элементами искусственного интеллекта представляет собой значительный шаг вперед в области робототехники. Сочетание гибкости и способности к обучению делает их технологию потенциально революционной и привлекательной для различных отраслей промышленности.
Источники:
- https://www.technologyreview.com/2024/03/11/1089653/an-openai-spinoff-has-built-an-ai-model-that-helps-robots-learn-tasks-like-humans/
- https://www.reddit.com/r/singularity/comments/1bc4718/an_openai_spinoff_has_built_an_ai_model_that/
- https://www.siliconrepublic.com/machines/covariant-ai-robotics-reason-foundaton-model
- https://ramaonhealthcare.com/an-openai-spinoff-has-built-an-ai-model-that-helps-robots-learn-tasks-like-humans/
- https://pinsystem.co.uk/an-openai-spinoff-has-built-an-ai-model-that-helps-robots-learn-tasks-like-humans