Принцип максимума Понтрягина (1956-61 гг.). - Проблемы автоматизированной обработки информации
Полная версия

Главная arrow Прочее arrow Проблемы автоматизированной обработки информации

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Принцип максимума Понтрягина (1956-61 гг.).

Этот метод является расширением классического вариационного исчисления для случая, когда управляющие воздействия ограничены и описываются кусочно-непрерывными функциями.

Принцип максимума используется для отыскания оптимальных управлений в системах, поведение которых описывается системой дифференциальных уравнений:

(1)

где X=(x1, x2, …, xn) - вектор фазовых координат объекта,

U=(u1, u2, …, ur) - вектор управления.

Более сжатый вид системы уравнений: .

Управление U(t) принадлежит ограниченной замкнутой области , а фазовая траектория X(t) - к ограниченной, но открытой области S'.

Задача состоит в том, чтобы из кусочно-непрерывных управлений выбрать такое U(t), что при переходе из заданной начальной точки X(tн)=(x, x, …, x) в заданную конечную точку X(tк)=(x, x, …, x) функционал

(2)

достигал экстремума.

В дальнейшем для определённости будем рассматривать задачу отыскания управления, минимизирующего I.

Введя дополнительную координату состояния системы

и присоединив к исходной системе ещё одно уравнение

,

получаем систему уравнений

(3)

правые части которых не зависят от x0.

Введение дополнительной координаты x0(t) расширяет вектор состояния системы, увеличивая его размерность на единицу. Используя расширенный вектор фазовых координат и его производную

,

запишем систему (3) в виде

.

Введём, наконец, совокупность вспомогательных произвольных функций 0(t), 1(t), …, n(t), с помощью которых образуем так называемую функцию Гамильтона:

(4)

Структура функции Гамильтона аналогична структуре функции Лагранжа, если считать, что функции играют роль ограничений, а функции - роль неопределённых множителей Лагранжа.

Функция Гамильтона имеет частные производные:

(5)

Тогда принцип максимума Понтрягина может быть сформулирован следующим образом.

Для того, чтобы управление u*(t), переводящее систему из Xн в Xк , было оптимальным, т.е. доставляло минимум функционалу (2), необходимо, чтобы при любом tн t tк :

существовала непрерывная ненулевая вектор-функция (t) = (0(t), 1(t), …, n(t)), составляющие которой удовлетворяли бы системе уравнений

(6)

(7)

функция Гамильтона

,

представляющая собой скалярное произведение вектора (t) на вектор скорости изображающей точки фазовой траектории, достигала бы максимума по u(t) на управлении u*(t).

в момент времени t=tк выполнялись соотношения

Система уравнений (6) и (7) называется гамильтоновой и содержит две группы уравнений:

(6) - уравнения движения объекта;

(7) - служит для непосредственного отыскания функций (t).

Обычно система (6) и (7) записывается в более сжатом виде:

(8)

Заметим, что решение системы уравнений (8) в общем случае может оказаться весьма трудоёмким или даже невыполнимым делом.

В частном случае, когда линейны, система может быть решена; в этом случае сформулированное выше необходимое условие оптимальности оказывается одновременно и достаточным (Болтянский В.Г.).

Принцип максимума в задаче о предельном быстродействии.

Оптимизируемый функционал есть время перехода из одного заданного состояния в другое (такие задачи называют задачами о предельном быстродействии).

В этом случае оптимизируемый функционал равен

и

Поэтому для функции Гамильтона выполняется

Поскольку, как отмечалось выше, , не зависят от x0, то и , откуда следует, что максимум достигается одновременно с максимумом функции

(9)

Кроме того, т.к. для оптимального управления и , то

(10)

Для задачи о предельном быстродействии гамильтонова система приобретает вид:

(11)

Пример. Управляемый объект массой m=1 , движущийся без трения по горизонтальной прямой, снабжён двигателем, развивающим силу u, причём |u|1.

Введём фазовые координаты объекта следующим образом:

x1(t) - положение объекта на прямой в момент времени t;

x2(t)=dx1(t)/dt - скорость объекта в момент времени t.

В соответствии со вторым законом Ньютона уравнения движения объекта имеют вид:

(12)

(13)

Требуется отыскать управление, удовлетворяющее (13) и переводящее объект из заданного начального состояния с координатами в начало координат за минимальное время.

В рассматриваемом случае и .

Поэтому в соответствии с (9) функция H имеет вид:

(14)

Составим гамильтонову систему уравнений:

(15а)

(15б)

Используем систему (15б) для отыскания 1 и 2.

Решение этой системы легко находится и имеет вид:

(16)

d1 и d2 - постоянные интегрирования.

Найдём оптимальное управление u*(t), максимизирующее H:

Подставляя (16) в (14), получаем

(17)

Функция H линейно зависит от u и потому имеет максимум в одной из крайних точек допустимого интервала значений u. Действительно,

, т.е.

Здесь

Семейство парабол

Величина max H для оптимального управления равна:

Проверим выполнение условия 3 принципа максимума:

т.е. требуемое условие выполняется.

Заметим, что линейная функция может менять знак на любом интервале лишь один раз. Таким образом, оптимальное управление u*(t) является кусочно-постоянной-функцией, принимающей значение 1 и имеющей на интервале tн t tк одно переключение.

Для отрезка времени, на котором u*(t)1 в силу (12) имеем

Линия переключения

(18)

где С1, С2 - постоянные интегрирования.

Таким образом, кусок фазовой траектории, для которого u1 представляет собой дугу параболы (18). Семейство парабол (18) показано на рисунке 1а.

По этим параболам фазовые точки движутся снизу вверх (т.к. , т.е. ).

Аналогично для отрезка времени, когда u-1, имеем

(19)

Семейство парабол, соответствующих (19) изображено на рисунке 1б, причём по этим параболам фазовая точка движется сверху вниз (т.к. , т.е. ).

Семейство парабол

Рис. 25 Семейство парабол

Как показано выше, любое оптимальное управление имеет на интервале tн t tк не более одного переключения. Фазовая траектория состоит из двух кусков парабол (рис. 2 а, б), примыкающих друг к другу, причём второй кусок лежит на той параболе, которая проходит через начало координат.

Рис. 26

Таким образом, в любом семействе парабол (18) и (19) особую роль играет парабола, проходящая через начало координат, т.к. ветвь любой из этих парабол, ведущая в начало координат, является линией переключения (соответствует моменту изменения знака уравнения).

Линия переключения

Рис. 27 Линия переключения

На рисунке 3 изображено всё семейство полученных оптимальных траекторий (линия переключения АОВ - выделена). Если начальное положение объекта соответствует точке выше линии АОВ, то фазовая точка под воздействием управления u=-1 должна двигаться до тех пор, пока не попадёт на дугу АО. В этот момент управление переключается на u=+1, и фазовая точка по дуге АО достигает начала координат. Если же начальное положение объекта соответствует точке, лежащей ниже АОВ, то начальное оптимальное управление u=+1 и фазовая точка движется по соответствующей параболе до пересечения с дугой ВО. При этом управление переключается на u=-1, под воздействием которого фазовая точка по дуге ВО достигает начала координат. Наконец, если начальная точка лежит на АОВ, то оптимальное управление не имеет переключения и принимает значение +1 или -1 в зависимости от того, на какой дуге линии АОВ (АО или ВО) находится начальная точка.

Теперь не представляет никакого труда непосредственно вычислить момент переключения. Пусть для определённости координаты начальной точки x и x таковы, что точка (x , x) лежит выше линии АОВ (u-1). Тогда в соответствии с (19) начальный участок фазовой траектории лежит на параболе, описываемой уравнениями

причём

Положив t = tн = 0, имеем

, откуда

(20)

Точка пересечения С может быть найдена как точка пересечения параболы (20) с линией АО, уравнение которой имеет вид

(21)

Решив уравнения (20) и (21) совместно, имеем

Координату x2 точки пересечения С следует взять со знаком минус, т.к. эта точка лежит на линии АО, т.е. ниже оси абсцисс. Итак,

(22)

Т.к. при движении из начальной точки до точки С

, то обозначив момент переключения через tC , имеем

(23)

Объединяя (22) и (23), получаем

Также легко вычислить общую продолжительность процесса. Начиная с момента переключения tC до окончания процесса, фазовая точка движется под воздействием управления u=+1 и её траектория описывается уравнением (18).

Поскольку x2(tк) = 0 и на этом участке траектории , откуда

(24)

Подставляя в (24) t = tC и используя (23), имеем

Теперь , откуда имея в виду (22) получаем

Аналогично отыскивается момент переключения и общее время процесса для случая, когда начальная точка лежит ниже линии АОВ.

 
Перейти к загрузке файла
<<   СОДЕРЖАНИЕ   >>