рефераты конспекты курсовые дипломные лекции шпоры

Раздел Математика
/
Тема 3. Управляемые цепи Маркова. Уравнение Беллмана.

Реферат Курсовая Конспект

Выберите учебное заведение

Тема 3. Управляемые цепи Маркова. Уравнение Беллмана.

Тема 3. Управляемые цепи Маркова. Уравнение Беллмана. - раздел Математика, Тема 1. Марковские процессы. Уравнение Чепмена-Колмогорова. Эргодичность Как И В Предыдущем Параграфе, Рассматриваем Пространства - Фазовое Пространст...

Как и в предыдущем параграфе, рассматриваем пространства - фазовое пространство процесса и - фазовое пространство управления. Управляемый процесс называется марковским ( управляемой цепью Маркова), если функции зависят лишь от и . Управляемая цепь Маркова задается набором своих вероятностей перехода , в отличие от общего случая начальное распределение не фиксируется ( это обычный подход при изучении марковских процессов). Оказывается, специальный вид условных вероятностей, определяющих управляемый процесс, не упрощает цепочки равенств (2), с помощью которых находятся цена управления и оптимальное ( или оптимальные) управления. Однако в предположении, что стоимость управления представляет собой сумму стоимостей управлений на каждом шаге, которые в свою очередь зависят лишь от исходного и конечного состояний процесса и выбранного управления, задача отыскания оптимального ( оптимального) управления допускает более эффектное решение

Аддитивная стоимость управления. Управление Беллмана.Будем предполагать, что для всех задана функция , определяющая затраты на управление на n-ом шаге, если процесс находится в состоянии х и после применения управления u перешел в состояние . Полная стоимость управления на отрезке [0, N], если процесс был в состоянии , а управления были будет

. (9)

Пусть есть цена управления, если начальное положение процесса совпадает с х. Рассмотрим теперь ту же управляющую цепь Маркова, только начиная с момента k<N. Стоимость управления для этой цепи будет

. (10)

Обозначим через цену управления для этого управляемого процесса в предположении, что начальное положение совпадает с х. Уравнения Беллмана связывают функции при разных k < N и дают возможность их вычислять рекуррентно.

Будем предполагать, что X,U – полные сепарабельные метрические пространства, функции и ограничены снизу, для всех замкнутых .

Т е о р е м а 3. Справедливы соотношения

(11)

k < N, при этом считаем, что

Д о к а з а т е л ь с т в о. Пусть , а при k < N функция определяются последовательно равенствами (11). Используя формулы (2) для функций вида (9) и соотношения (11) для находим

Далее,

Продолжая, находим , поэтому Аналогично, рассматривая управляемый процесс на [k, N], устанавливаем, что

З а м е ч а н и е 1. Предположим, что в (11) инфинум достигается для всех k и х. Тогда на основании утверждения А7 § 1 существует борелевская функция из Х в U, для которой

(12)

Последовательность функций определяет нерандомизированное оптимальное управление.

З а м е ч а н и е 2. Если функция непрерывны снизу и ограничены снизу, U- компакт, а вероятности перехода удовлетворяет у.с.н., то все функции и непрерывны снизу, поэтому существование борелевских функций , удовлетворяющих (12), вытекает из утверждения 3 § 1.

О п р е д е л е н и е 1. Нерандомизированное управление вида называется марковским ( соответствующая стратегия также называется марковской ).

Таким образом в замечаниях 1, 2 даются условия существования марковского оптимального управления.

З а м е ч а н и е 3. Если для всех k выбрать функцию такую, что

(13)

существование таких борелевских функций вытекает из утверждения А7 § 1, то последовательность функций , k=0,…..,N-1 определяет оптимальное марковское управление, если только . Это устанавливается точно так, как в теореме 2.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Тема 1. Марковские процессы. Уравнение Чепмена-Колмогорова. Эргодичность

Рассмотрим функцию... это время...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Тема 3. Управляемые цепи Маркова. Уравнение Беллмана.

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Тема 1. Марковские процессы. Уравнение Чепмена-Колмогорова. Эргодичность.
Будем рассматривать Марковские процессы с дискретным временем, дискретным пространством состояний и однородные. Введем следующие обозначения: пусть пространство состояний состоит из чисел

Тема 3. Марковські процессы с доходами.
– доход, который приносит переход из состояния i в состояние j. Можем ввести матрицу доходов R Чему равен ожидаемый доход за шагов, если мы находимся в

Свойства итерационного метода
1) Определение оптимального решения в процессе последовательных решений сводится к решению системы линейных уравнений с последующим сравнением. 2) Каждое следующее решение, находящееся с п

Свойства оптимальных управлений и оптимальных доходов
1) поглощающее состояние , а при любое состояние i есть состояние вынужденной остановки 2) для всех последовательность оптимальных значений полных ожидаемых доходов

Бесконечный горизонт управления
Согласно свойству 6), у оптимальных доходов при существует конечный предел, поэтому в рекуррентном соотношении можно перейти к пределу, предположив, что число оставшихся шагов может быть достаточно

Тема 8. Управление запасами при случайном потреблении.
– полный ожидаемый доход за шагов при оптимальном управлении, если мы находимся в состоянии i. Рекуррентное соотношение для полных ожидаемых доходов:

Тема 1. Управляемые случайные последовательности.
Рассмотрим сначала управляемый случайный процесс с дискретным временем. Это более простой вариант процесса, здесь проще и определение процесса, и постановка задачи, и ее решение. Пусть , - два изме

Тема 2. Оптимальное управление.
С т р а т е г и я у п р а в л е н и я. Для уточнения способа выбора управления приведем определение стратегии управления. Естественно считать, что управление не может зависеть от будущих состояний

Тема 4. Оптимальная остановка цепи Маркова.
Рассмотрим цепь Маркова в фазовом пространстве с вероятностью перехода на n-ом шаге . Обозначим через реализацию этой цепи. Управление цепью состоит в выборе момента остановки цепи , стоимость упра

Ставок в игре.
{см. Дынкин, Ющкевич Управляемые марковские последовательности, глава 2, пар7} Пусть инвестор вкладывает имеющиеся средства как в рисковые активы (например, в акции) так и в безрисковые (н

Нахождение оптимального управления
Поставлена следующая задача: найти такое управление в модели (2), чтобы к моменту времени N капитал инвестора был максимальным. Искать оптимальное управление будем методом, описанны