Тем не менее разрыв между технологиями голосового управления и реализацией их в автономной робототехнике по-прежнему огромен, и на это есть целый ряд причин, сообщает inbusiness.kz со ссылкой на 3dnews.ru.
Научить робота выполнять повторяющиеся задачи в контролируемых пространствах без присутствия людей хоть и не самая простая, но вполне решаемая задача. Гораздо сложнее научить робота решать различные задачи на основе голосовых команд в пространствах, где также присутствуют люди. Речь не идёт о таких моделях, как, роботы-пылесосы, которые просто запрограммированы на то, чтобы не касаться никаких предметов на полу.
Google достигла определённого прогресса в уровне понимания роботами естественного языка, который может использовать человек. С помощью своей системы обработки естественного языка Pathways Language Model (PaLM) компания смогла достичь точной обработки фраз и понимания роботом того, что человек на самом деле хочет, а не буквального выполнения сказанного.
Следующая задача — понять, на что на самом деле способен робот. Робот может понять просьбу достать предмет с полки, но проблема в том, что он не сможет дотянуться до него, так как полка находится слишком высоко. Google называет "возможностями" то, что может делать робот более-менее успешно. Это могут быть простые задачи ("продвиньтесь на метр вперёд"), более сложные задачи ("найди банку колы на кухне"), а также сложные, многоэтапные действия, требующие от робота понимания собственных способностей и окружающего мира. Например, "Уф, я пролил свою колу на пол. Не могли бы вы вытереть лужу и принести мне новый напиток?". В последнем случае роботу будет необходимо разбить задачу на ряд этапов — определить место, где пролита жидкость, пойти на кухню, найти губку, вернуться назад, собрать воду, опять пойти на кухню, чтобы выжать губку и т.д. Хотя, возможно, ему нужно определиться — может быть лучше сначала принести банку колы, а потом заняться устранением лужи?
Ещё одна проблема, с которой сталкивается робототехника, заключается в том, что языковые модели не привязаны к физическому миру. Например, на запрос "Я пролил свой напиток, вы можете помочь?" языковая модель GPT-3 отвечает: "Вы можете попробовать использовать пылесос". И это имеет смысл для неё, так как языковая модель ассоциирует пылесос с процессом уборки. Хотя пылесос не предназначен для устранения лужи и попытка сделать это может привести к его поломке.
Как утверждают в Google, важно научить роботов определять, что они могут и чего не могут делать, и что имеет смысл делать в первую очередь в различных ситуациях.