Главная arrow Робототехника arrow Реактивное управление
Как начинался компьютер
Компьютерная революция
Двоичный код
Разработки военных лет
Интегральные микросхемы
Микрокомпьютер
Персоны
Сеть
Язык компьютера
Развитие ПО
Гибкие системы
Средства разработки
Информатика
Вычислительная наука
Операционные системы
Искусственный интеллект
Предыстория
Поиск
Знания и рассуждения
Логика
Робототехника
 

 
Реактивное управление Печать

До сих пор в этой главе речь шла об управляющих решениях, которые требуют наличия определенной модели среды, чтобы на ее основе можно было сформировать либо опорный путь, либо поле потенциалов. Но с этим подходом связаны некоторые сложности. Во-первых, зачастую сложно получить достаточно точные модели, особенно в сложной или удаленной среде, такой как поверхность Марса. Во-вторых, даже в тех случаях, когда есть возможность составить модель с достаточной точностью, вычислительные сложности и погрешности локализации могут привести к тому, что эти методы окажутся практически не применимыми. В определенных обстоятельствах более подходящим становится один из видов рефлексного проекта агента — проект на основе так называемого реактивного управления.

Одним из примеров такого проекта является шестиногий робот, или  гексапод, показанный на рисунке а), который предназначен для ходьбы по пересеченной местности. В целом датчики робота не позволяют формировать модели местности с точностью, достаточной для любого из методов планирования пути, описанных в предыдущем разделе. Кроме того, даже в случае использования достаточно точных датчиков задача планирования пути не разрешима с помощью имеющихся вычислительных средств из-за наличия двенадцати степеней свободы (по две для каждой ноги).

Тем не менее существует возможность определить спецификацию контроллера непосредственно, без использования явной модели среды. Для рассматриваемого примера шагающего робота после выбора подходящего уровня абстракции задача определения закона управления оказалась удивительно простой. В приемлемом законе управления может быть предусмотрено циклическое движение каждой ноги с тем, чтобы эта нога на какой-то момент касалась земли, а в остальное время двигалась в воздухе. Координация действий всех шести ног должна осуществляться так, чтобы три из них (расположенные на противоположных концах) всегда находились на земле для обеспечения физической опоры. Такой принцип управления можно легко запрограммировать, и он себя полностью оправдывает на ровной местности. А на пересеченной местности движению ног вперед могут помешать препятствия. Это затруднение можно преодолеть с помощью исключительно простого правила управления: если движение какой-то ноги вперед блокируется, следует отвести ее немного назад, поднять выше и предпринять еще одну попытку. Созданный в итоге контроллер показан на рисунке б) в виде конечного автомата; он представляет собой рефлексный агент с поддержкой состояния, в котором внутреннее состояние представлено индексом текущего состояния автомата (от s1 до s4).

 

 

 

 

 

 

 

 

Пример применения реактивного управления: шестиногий робот (а); дополненный конечный автомат (Augmented Finite State Machine — AFSM) для управления одной ногой (б). Автомат AFSM реагирует на сенсорную обратную связь: если какая-то нога не может двинуться вперед при выполнении этапа ее поворота и переноса в прямом направлении, то она поднимается каждый раз все выше и выше

Практика показала, что разновидности такого простого контроллера, действующего на основе обратной связи, позволяют реализовывать исключительно надежные способы ходьбы, с помощью которых робот свободно маневрирует на пересеченной местности. Очевидно, что в таком контроллере не используется модель, кроме того, для выработки управляющих воздействий не осуществляется алгоритмический вывод и не производится поиск. В процессе эксплуатации подобного контроллера решающую роль в выработке поведения роботом играет обратная связь от среды. Само программное обеспечение робота, отдельно взятое, не определяет, что фактически происходит после того, как робот входит в какую-то среду. Поведение, проявляющееся в результате взаимодействия (простого) контроллера и (сложной) среды, часто называют эмерджентным поведением (т.е. поведением не планируемым, а обусловленным ситуацией). Строго говоря, все роботы, рассматриваемые в этой главе, обнаруживают эмерджентное поведение в связи с тем фактом, что ни одна из используемых в них моделей не является идеальной. Но по традиции этот термин применяется для обозначения лишь таких методов управления, в которых не используются явно заданные модели среды. Кроме того, эмерджентное поведение является характерным для значительной части биологических организмов.

С формальной точки зрения реактивные контроллеры представляют собой одну из форм реализации политики для задач MDP (или, если они имеют внутреннее состояние, для задач POMDP). В робототехнике большое практическое значение имеет подход, предусматривающий составление подобной политики вручную, поскольку часто невозможно сформулировать точную модель. Некоторые из методов (такие как Q-обучение и поиск политики) не требуют модели среды и позволяют создавать высококачественные контроллеры для роботов, но взамен требуют предоставления огромных объемов обучающих данных.