Реферат Курсовая Конспект
Тема 3. Управляемые цепи Маркова. Уравнение Беллмана. - раздел Математика, Тема 1. Марковские процессы. Уравнение Чепмена-Колмогорова. Эргодичность Как И В Предыдущем Параграфе, Рассматриваем Пространства - Фазовое Пространст...
|
Как и в предыдущем параграфе, рассматриваем пространства - фазовое пространство процесса и - фазовое пространство управления. Управляемый процесс называется марковским ( управляемой цепью Маркова), если функции зависят лишь от и . Управляемая цепь Маркова задается набором своих вероятностей перехода , в отличие от общего случая начальное распределение не фиксируется ( это обычный подход при изучении марковских процессов). Оказывается, специальный вид условных вероятностей, определяющих управляемый процесс, не упрощает цепочки равенств (2), с помощью которых находятся цена управления и оптимальное ( или оптимальные) управления. Однако в предположении, что стоимость управления представляет собой сумму стоимостей управлений на каждом шаге, которые в свою очередь зависят лишь от исходного и конечного состояний процесса и выбранного управления, задача отыскания оптимального ( оптимального) управления допускает более эффектное решение
Аддитивная стоимость управления. Управление Беллмана.Будем предполагать, что для всех задана функция , определяющая затраты на управление на n-ом шаге, если процесс находится в состоянии х и после применения управления u перешел в состояние . Полная стоимость управления на отрезке [0, N], если процесс был в состоянии , а управления были будет
. (9)
Пусть есть цена управления, если начальное положение процесса совпадает с х. Рассмотрим теперь ту же управляющую цепь Маркова, только начиная с момента k<N. Стоимость управления для этой цепи будет
. (10)
Обозначим через цену управления для этого управляемого процесса в предположении, что начальное положение совпадает с х. Уравнения Беллмана связывают функции при разных k < N и дают возможность их вычислять рекуррентно.
Будем предполагать, что X,U – полные сепарабельные метрические пространства, функции и ограничены снизу, для всех замкнутых .
Т е о р е м а 3. Справедливы соотношения
(11)
k < N, при этом считаем, что
Д о к а з а т е л ь с т в о. Пусть , а при k < N функция определяются последовательно равенствами (11). Используя формулы (2) для функций вида (9) и соотношения (11) для находим
.
Далее,
Продолжая, находим , поэтому Аналогично, рассматривая управляемый процесс на [k, N], устанавливаем, что
З а м е ч а н и е 1. Предположим, что в (11) инфинум достигается для всех k и х. Тогда на основании утверждения А7 § 1 существует борелевская функция из Х в U, для которой
(12)
Последовательность функций определяет нерандомизированное оптимальное управление.
З а м е ч а н и е 2. Если функция непрерывны снизу и ограничены снизу, U- компакт, а вероятности перехода удовлетворяет у.с.н., то все функции и непрерывны снизу, поэтому существование борелевских функций , удовлетворяющих (12), вытекает из утверждения 3 § 1.
О п р е д е л е н и е 1. Нерандомизированное управление вида называется марковским ( соответствующая стратегия также называется марковской ).
Таким образом в замечаниях 1, 2 даются условия существования марковского оптимального управления.
З а м е ч а н и е 3. Если для всех k выбрать функцию такую, что
(13)
существование таких борелевских функций вытекает из утверждения А7 § 1, то последовательность функций , k=0,…..,N-1 определяет оптимальное марковское управление, если только . Это устанавливается точно так, как в теореме 2.
– Конец работы –
Эта тема принадлежит разделу:
Рассмотрим функцию... это время...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Тема 3. Управляемые цепи Маркова. Уравнение Беллмана.
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Новости и инфо для студентов