Обучение на опыте (продолжение)

Рубрики: Это интересно   Комментарии (0)

Пространство состояний программы «шест — тележка» (для наглядности 4-е измерение не показано), разбитое на клетки, каждая из которых подчиняется своим собственным правилам («демонам»); действие всех правил контролируется «председателем».

Пространство состояний программы

Наблюдая за работой механизма, система собирала данные о четырех параметрах его поведения; о положении тележки, скорости ее движения, величине угла между тележкой и шестом, скорости изменения этого угла. Интервал возможных изменений каждой из этих величин разбивался на подынтервалы, из которых строилось четырехмерное «пространство состояний» системы, причем за поведение системы в каждом локальном подынтервале отвечало независимое правило (или «демон» — согласно распространенной сегодня терминологии, придуманной Оливером Сэлфриджем в 1959 г.), которое накапливало собственный запас знаний о том, что делать в данной конкретной ситуации. Вся же система работала по принципу «экспертной комиссии», в которой «председатель» (программа центрального управления) определяет текущее входное состояние и вызывает соответствующее правило.

Допустим, возникла ситуация, которую можно описать следующим образом: тележка находится вблизи левого края рельсового пути, движется вправо, шест несколько наклонен вправо, но идет влево. После того как будет вызвано соответствующее правило, оно предпишет повысить тягу двигателя вправо или влево и тем самым создаст новое входное состояние. Коллективный опыт всех правил, взятых в совокупности, определяет эффективность работы системы. В начале обучения решения двигаться «вправо» или «влево» распределялись по 225 клеткам случайным образом. Но по мере своей работы программа сама корректировала правила в соответствии с частотой достижения успеха и, постепенно накапливая опыт, обучалась идеальной балансировке шестом.

В задачах такой общей категории решения программы о поведении в некоторых участках пространства состояний явно противоречат нашей интуиции. Это относится, в частности, к случаю, когда тележка оказывается в опасной близости от «обрыва» в конце рельсового пути. В целом ряде таких случаев при соответствующих значениях угла и угловой скорости шеста правильное решение, оказывается, состоит в том, чтобы сначала двигаться к обрыву, качнув тем самым шест в противоположную сторону. Только после этого можно спокойно переключить двигатель на движение от опасной зоны, как бы «догоняя» шест и осуществляя необходимое управление углом его наклона.

Эти же правила можно было бы вывести чисто символически, основываясь на подробной математической модели, хотя для этого понадобились бы достаточно точные и обширные измерения различных физических параметров системы. В реальной жизни мы можем и не располагать подобными данными. Вместо того чтобы искать их систематически, мы накапливали их по крупицам на основании собственного опыта системы. Аналогично поступают и полевые игроки в крикет, когда из своего игрового опыта извлекают простое правило, предписывающее постоянно поднимать вверх траекторию, связывающую в трехмерном пространстве игрока и мяч, чтобы оказаться в какой-то точке пространства одновременно с мячом.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Подтвердите, что Вы не бот — выберите самый большой кружок: