Оптимальный контроль - Optimal control

Теория оптимального управления является филиалом математической оптимизации , которая занимается нахождением управления для динамической системы в течение определенного периода времени таким образом, что целевая функция оптимизирована. Он имеет множество применений в науке, технике и операционных исследованиях. Например, динамическая система может быть космическим кораблем с элементами управления, соответствующими ракетным двигателям, и цель может состоять в том, чтобы достичь Луны с минимальным расходом топлива. Или динамичная система может быть национальной экономикой с целью минимизировать безработицу ; Контролем в этом случае может быть фискальная и денежно-кредитная политика . Также может быть введена динамическая система для включения задач исследования операций в рамках теории оптимального управления.

Оптимальное управление - это расширение вариационного исчисления и математический метод оптимизации для получения политик управления . Этот метод во многом обязан работам Льва Понтрягина и Ричарда Беллмана в 1950-х годах после вклада в вариационное исчисление Эдварда Дж. МакШейна . Оптимальное управление можно рассматривать как стратегию управления в теории управления .

Общий метод

Оптимальное управление связано с проблемой нахождения закона управления для данной системы, при котором достигается определенный критерий оптимальности . Задача управления включает в себя функционал стоимости, который является функцией переменных состояния и управления. Управления оптимальным является набор дифференциальных уравнений , описывающих пути управляющих переменных , которые минимизируют функцию стоимости. Оптимальное управление может быть получено с использованием принципа максимума Понтрягина ( необходимое условие, также известного как принцип минимума Понтрягина или просто принцип Понтрягина) или путем решения уравнения Гамильтона – Якоби – Беллмана ( достаточное условие ).

Начнем с простого примера. Представьте машину, едущую по прямой по холмистой дороге. Вопрос в том, как водителю нажимать педаль акселератора, чтобы минимизировать общее время в пути? В этом примере термин « закон управления» относится конкретно к тому, как водитель нажимает на педаль акселератора и переключает передачи. Система включает в себя как машины и дороги, и критерий оптимальности является минимизация общего времени в пути. Проблемы управления обычно включают в себя дополнительные ограничения . Например, количество доступного топлива может быть ограничено, педаль акселератора нельзя протолкнуть через пол автомобиля, ограничения скорости и т. Д.

Правильная функция стоимости будет математическим выражением, дающим время в пути как функцию скорости, геометрических соображений и начальных условий системы. Ограничения часто взаимозаменяемы с функцией стоимости.

Другая связанная с этим проблема оптимального управления может заключаться в том, чтобы найти способ управления автомобилем, чтобы минимизировать его расход топлива, при условии, что он должен пройти заданный курс за время, не превышающее некоторого количества. Еще одна связанная проблема контроля может заключаться в минимизации общих денежных затрат на завершение поездки с учетом предполагаемых денежных цен на время и топливо.

Более абстрактная структура выглядит следующим образом. Минимизация функционала непрерывных затрат

{\ Displaystyle J [{\ textbf {x}} (\ cdot), {\ textbf {u}} (\ cdot), t_ {0}, t_ {f}]: = E \, [\, {\ textbf {x}} (t_ {0}), t_ {0}, {\ textbf {x}} (t_ {f}), t_ {f} \,] + \ int \ limits _ {t_ {0}} ^ {t_ {f}} F \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,] \, \ operatorname {d} t}

с учетом динамических ограничений первого порядка ( уравнение состояния )

{\ displaystyle {\ dot {\ textbf {x}}} (t) = {\ textbf {f}} \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t ), t \,],}

алгебраические ограничения пути

{\ displaystyle {\ textbf {h}} \, [\, {\ textbf {x}} (t), {\ textbf {u}} (t), t \,] \ leq {\ textbf {0}} ,}

и условия конечной точки

{\ displaystyle {\ textbf {e}} \, [\, {\ textbf {x}} (t_ {0}), t_ {0}, {\ textbf {x}} (t_ {f}), t_ { f} \,] = 0}

где - состояние , - управление , - независимая переменная (вообще говоря, время), - начальное время и - конечное время. Условия и называются затратами на конечную точку и текущими затратами соответственно. В вариационном исчислении и называются членом Майера и лагранжианом соответственно. Кроме того, следует отметить, что ограничения пути в общем являются ограничениями неравенства и, таким образом, могут быть неактивными (то есть равными нулю) в оптимальном решении. Также следует отметить, что проблема оптимального управления, как указано выше, может иметь несколько решений (т. Е. Решение может быть не единственным). Таким образом, чаще всего любое решение задачи оптимального управления сводится к локальной минимизации . ${\ displaystyle {\ textbf {x}} (т)}$ ${\ Displaystyle {\ textbf {u}} (т)}$ ${\ displaystyle t}$ ${\ displaystyle t_ {0}}$ ${\ displaystyle t_ {f}}$ ${\ displaystyle E}$ ${\ displaystyle F}$ ${\ displaystyle E}$ ${\ displaystyle F}$ ${\ displaystyle [{\ textbf {x}} ^ {*} (t), {\ textbf {u}} ^ {*} (t), t_ {0} ^ {*}, t_ {f} ^ {* }]}$

Линейно-квадратичное управление

Частным случаем общей нелинейной задачи оптимального управления, приведенной в предыдущем разделе, является линейно-квадратичная (LQ) задача оптимального управления . Проблема LQ формулируется следующим образом. Минимизировать квадратичный функционал затрат в непрерывном времени

{\ displaystyle J = {\ tfrac {1} {2}} \ mathbf {x} ^ {\ mathsf {T}} (t_ {f}) \ mathbf {S} _ {f} \ mathbf {x} (t_ {f}) + {\ tfrac {1} {2}} \ int _ {t_ {0}} \ limits ^ {t_ {f}} [\, \ mathbf {x} ^ {\ mathsf {T}} ( t) \ mathbf {Q} (t) \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} (t) \ mathbf {u} (t ) \,] \, \ operatorname {d} t}

С учетом линейных динамических ограничений первого порядка

{\ displaystyle {\ dot {\ mathbf {x}}} (t) = \ mathbf {A} (t) \ mathbf {x} (t) + \ mathbf {B} (t) \ mathbf {u} (t ),}

и начальное условие

{\ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}

Особая форма задачи LQ , которая возникает во многих задачах системы управления является то , что из линейного квадратического регулятора (LQR) , где все матрицы (т.е. , , , и ) являются постоянными , в начальный момент времени произвольно установлено равным нулю, и конечное время берется за предел (это последнее предположение известно как бесконечный горизонт ). Проблема LQR формулируется следующим образом. Минимизация квадратичного функционала затрат в непрерывном времени с бесконечным горизонтом ${\ displaystyle \ mathbf {A}}$ ${\ displaystyle \ mathbf {B}}$ ${\ displaystyle \ mathbf {Q}}$ ${\ displaystyle \ mathbf {R}}$ ${\ displaystyle t_ {f} \ rightarrow \ infty}$

{\ Displaystyle J = {\ tfrac {1} {2}} \ int \ limits _ {0} ^ {\ infty} [\, \ mathbf {x} ^ {\ mathsf {T}} (t) \ mathbf { Q} \ mathbf {x} (t) + \ mathbf {u} ^ {\ mathsf {T}} (t) \ mathbf {R} \ mathbf {u} (t) \,] \, \ operatorname {d} t}

С учетом линейных не зависящих от времени динамических ограничений первого порядка

{\ displaystyle {\ dot {\ mathbf {x}}} (t) = \ mathbf {A} \ mathbf {x} (t) + \ mathbf {B} \ mathbf {u} (t),}

и начальное условие

{\ displaystyle \ mathbf {x} (t_ {0}) = \ mathbf {x} _ {0}}

В случае конечного горизонта матрицы ограничены этим и являются положительно полуопределенными и положительно определенными соответственно. Однако в случае бесконечного горизонта матрицы и являются не только положительно-полуопределенными и положительно-определенными соответственно, но и постоянными . Эти дополнительные ограничения для случая бесконечного горизонта и в случае бесконечного горизонта применяются, чтобы гарантировать, что функционал стоимости остается положительным. Кроме того, чтобы гарантировать, что функция стоимости ограничена , налагается дополнительное ограничение, что пара является управляемой . Обратите внимание, что функционал стоимости LQ или LQR физически можно рассматривать как попытку минимизировать энергию управления (измеренную в квадратичной форме). ${\ displaystyle \ mathbf {Q}}$ ${\ displaystyle \ mathbf {R}}$ ${\ displaystyle \ mathbf {Q}}$ ${\ displaystyle \ mathbf {R}}$ ${\ displaystyle \ mathbf {Q}}$ ${\ displaystyle \ mathbf {R}}$ ${\ Displaystyle (\ mathbf {A}, \ mathbf {B})}$

Проблема бесконечного горизонта (то есть LQR) может показаться чрезмерно ограничивающей и по существу бесполезной, потому что она предполагает, что оператор переводит систему в нулевое состояние и, следовательно, приводит к нулю выход системы. Это действительно так. Однако проблема приведения выхода к желаемому ненулевому уровню может быть решена после того, как будет установлен нулевой выходной уровень. Фактически, можно доказать, что эта вторичная проблема LQR может быть решена очень просто. В классической теории оптимального управления было показано, что оптимальное управление LQ (или LQR) имеет вид обратной связи

{\ Displaystyle \ mathbf {u} (t) = - \ mathbf {K} (t) \ mathbf {x} (t)}

где - правильно подобранная матрица, заданная как ${\ Displaystyle \ mathbf {K} (т)}$

{\ displaystyle \ mathbf {K} (t) = \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} (t),}

и является решением дифференциального уравнения Риккати . Дифференциальное уравнение Риккати имеет вид ${\ Displaystyle \ mathbf {S} (т)}$

{\ displaystyle {\ dot {\ mathbf {S}}} (t) = - \ mathbf {S} (t) \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S } (t) + \ mathbf {S} (t) \ mathbf {B} \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} (t) - \ mathbf {Q}}

Для задачи LQ с конечным горизонтом уравнение Риккати интегрируется в обратном направлении во времени с использованием конечного граничного условия

{\ Displaystyle \ mathbf {S} (t_ {f}) = \ mathbf {S} _ {f}}

Для задачи LQR с бесконечным горизонтом дифференциальное уравнение Риккати заменяется алгебраическим уравнением Риккати (ARE), заданным как

{\ displaystyle \ mathbf {0} = - \ mathbf {S} \ mathbf {A} - \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {S} + \ mathbf {S} \ mathbf {B} \ mathbf {R} ^ {- 1} \ mathbf {B} ^ {\ mathsf {T}} \ mathbf {S} - \ mathbf {Q}}

Понимание того, что ARE возникает из бесконечной проблемы горизонта, матрицы , , и вся константа . Следует отметить, что в общем случае существует несколько решений алгебраического уравнения Риккати, и положительно определенное (или положительно полуопределенное) решение - это то решение, которое используется для вычисления коэффициента усиления обратной связи. Проблема LQ (LQR) была элегантно решена Рудольфом Кальманом . ${\ displaystyle \ mathbf {A}}$ ${\ displaystyle \ mathbf {B}}$ ${\ displaystyle \ mathbf {Q}}$ ${\ displaystyle \ mathbf {R}}$

Численные методы оптимального управления

Задачи оптимального управления обычно нелинейны и поэтому обычно не имеют аналитических решений (например, как линейно-квадратичная задача оптимального управления). В результате возникает необходимость использования численных методов для решения задач оптимального управления. В первые годы оптимального управления ( с 1950-х по 1980-е годы) предпочтительным подходом к решению задач оптимального управления были косвенные методы . В косвенном методе вариационное исчисление используется для получения условий оптимальности первого порядка. Эти условия приводят к двухточечной (или, в случае сложной задачи, многоточечной) краевой задаче . Эта краевая задача на самом деле имеет особую структуру, поскольку возникает из-за взятия производной от гамильтониана . Таким образом, полученная динамическая система является гамильтоновой системой вида

{\ displaystyle {\ begin {array} {lcl} {\ dot {\ textbf {x}}} & = & \ partial H / \ partial {\ boldsymbol {\ lambda}} \\ {\ dot {\ boldsymbol {\ лямбда}}} & = & - \ partial H / \ partial {\ textbf {x}} \ end {array}}}

куда

{\ displaystyle H = F + {\ boldsymbol {\ lambda}} ^ {\ mathsf {T}} {\ textbf {f}} - {\ boldsymbol {\ mu}} ^ {\ mathsf {T}} {\ textbf { час}}}

- расширенный гамильтониан, и косвенным методом решается краевая задача (с использованием соответствующих граничных условий или условий трансверсальности ). Прелесть использования косвенного метода состоит в том, что для состояния и сопряженного (т. Е. ) Решаются, а полученное решение легко проверяется как экстремальная траектория. Недостатком косвенных методов является то, что краевую задачу часто чрезвычайно сложно решить (особенно для задач, охватывающих большие временные интервалы, или задач с ограничениями внутренней точки). Хорошо известная программа, реализующая косвенные методы, - это BNDSCO. ${\ displaystyle {\ boldsymbol {\ lambda}}}$

Подход, который приобрел известность в численном оптимальном управлении с 1980-х годов, - это так называемые прямые методы . В прямом методе состояние или управление, или и то и другое, аппроксимируются с использованием подходящей аппроксимации функции (например, полиномиальной аппроксимации или кусочно-постоянной параметризации). Одновременно с этим функционал стоимости аппроксимируется как функция стоимости . Затем коэффициенты аппроксимации функций рассматриваются как переменные оптимизации, и задача «транскрибируется» в нелинейную задачу оптимизации вида:

Минимизировать

{\ Displaystyle F (\ mathbf {z}) \,}

с учетом алгебраических ограничений

{\ displaystyle {\ begin {array} {lcl} \ mathbf {g} (\ mathbf {z}) & = & \ mathbf {0} \\\ mathbf {h} (\ mathbf {z}) & \ leq & \ mathbf {0} \ end {массив}}}

В зависимости от типа используемого прямого метода размер задачи нелинейной оптимизации может быть довольно маленьким (например, как в методе прямой съемки или квазилинеаризации), умеренным (например, псевдоспектральное оптимальное управление ) или может быть довольно большим (например, прямое метод коллокации ). В последнем случае (т. Е. Метод коллокации) проблема нелинейной оптимизации может включать буквально тысячи или десятки тысяч переменных и ограничений. Учитывая размер многих НЛП, возникающих из прямого метода, может показаться несколько нелогичным, что решить задачу нелинейной оптимизации проще, чем решить краевую задачу. Однако дело в том, что НЛП легче решить, чем краевую задачу. Причина относительной простоты вычислений, особенно прямого метода коллокации, заключается в том, что NLP является разреженным и существует множество хорошо известных программ (например, SNOPT ) для решения больших разреженных NLP. В результате круг проблем, которые могут быть решены прямыми методами (особенно прямые методы коллокации, которые очень популярны в наши дни), значительно больше, чем круг проблем, которые могут быть решены с помощью косвенных методов. Фактически, прямые методы стали настолько популярными в наши дни, что многие люди написали сложные программы, использующие эти методы. В частности, многие такие программы включают DIRCOL , SOCS, OTIS, GESOP / ASTOS , DITAN. и PyGMO / PyKEP. В последние годы, в связи с появлением языка программирования MATLAB, программное обеспечение оптимального управления в MATLAB стало более распространенным. Примеры академически разработанных программных инструментов MATLAB, реализующих прямые методы, включают RIOTS , DIDO , DIRECT , FALCON.m и GPOPS, а примером промышленного инструмента MATLAB является PROPT . Эти программные инструменты значительно увеличили возможности для людей исследовать сложные задачи оптимального управления как для академических исследований, так и для промышленных задач. Наконец, следует отметить, что среды оптимизации MATLAB общего назначения, такие как TOMLAB , значительно упростили кодирование сложных задач оптимального управления, чем это было ранее возможно в таких языках, как C и FORTRAN .

Оптимальное управление с дискретным временем

На примерах до сих пор были показаны системы непрерывного времени и решения по управлению. Фактически, поскольку решения оптимального управления теперь часто реализуются в цифровом виде , современная теория управления в настоящее время в первую очередь занимается системами и решениями с дискретным временем . Теория согласованных приближений обеспечивает условия, при которых решения ряда все более точных дискретизированных задач оптимального управления сходятся к решению исходной задачи с непрерывным временем. Не все методы дискретизации обладают этим свойством, даже кажущимся очевидным. Например, использование подпрограммы переменного размера шага для интегрирования динамических уравнений задачи может генерировать градиент, который не сходится к нулю (или указывает в правильном направлении) по мере приближения к решению. Прямой метод RIOTS основан на теории согласованного приближения.

Примеры

Распространенной стратегией решения многих задач оптимального управления является решение по стоимости (иногда называемой теневой ценой ) . Стоимость суммирует одним числом предельное значение расширения или сжатия переменной состояния в следующий ход. Предельная стоимость - это не только прибыль, полученная в следующий ход, но и связанная с продолжительностью программы. Приятно, когда можно решить аналитически, но обычно самое большее, что можно сделать, - это описать это достаточно хорошо, чтобы интуиция могла уловить характер решения, а решатель уравнений мог решить численно для значений. ${\ Displaystyle \ лямбда (т)}$ ${\ Displaystyle \ лямбда (т)}$

Получив оптимальное значение turn-t для управления, обычно можно решить как дифференциальное уравнение при условии знания . Опять же, нечасто, особенно в задачах с непрерывным временем, когда можно явно получить значение элемента управления или состояния. Обычно стратегия заключается в поиске пороговых значений и областей, которые характеризуют оптимальное управление, и использовании числового решателя для выделения фактических значений выбора во времени. ${\ Displaystyle \ лямбда (т)}$ ${\ Displaystyle \ лямбда (т)}$

Конечное время

Рассмотрим проблему владельца шахты, который должен решить, с какой скоростью извлекать руду из своей шахты. Им принадлежат права на руду с настоящего момента и до настоящего времени . На данный момент в земле есть руда, и зависящее от времени количество руды, оставшейся в земле, уменьшается со скоростью , с которой владелец рудника добывает ее. Владелец шахты добывает руду по себестоимости (стоимость добычи увеличивается пропорционально квадрату скорости добычи и обратной величине оставшейся руды) и продает руду по постоянной цене . Любая руда, оставшаяся в земле во время, не может быть продана и не имеет ценности (нет «стоимости лома»). Владелец выбирает скорость добычи, меняющуюся во времени, чтобы максимизировать прибыль в течение периода владения без дисконтирования по времени. ${\ displaystyle 0}$ ${\ displaystyle T}$ ${\ displaystyle 0}$ ${\ displaystyle x_ {0}}$ ${\ Displaystyle х (т)}$ ${\ Displaystyle и (т)}$ ${\ Displaystyle и (т) ^ {2} / х (т)}$ ${\ displaystyle p}$ ${\ displaystyle T}$ ${\ Displaystyle и (т)}$

1. Дискретно-временная версия

Менеджер максимизирует прибыль : ${\ displaystyle \ Pi}$

{\ displaystyle \ Pi = \ sum \ limits _ {t = 0} ^ {T-1} \ left [pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ {t}}} \Правильно]}

подчиняется закону эволюции переменной состояния ${\ displaystyle x_ {t}}$

{\ displaystyle x_ {t + 1} -x_ {t} = - u_ {t} \!}

Сформируем гамильтониан и продифференцируем:

{\ displaystyle H = pu_ {t} - {\ frac {u_ {t} ^ {2}} {x_ {t}}} - \ lambda _ {t + 1} u_ {t}}

{\ displaystyle {\ frac {\ partial H} {\ partial u_ {t}}} = p- \ lambda _ {t + 1} -2 {\ frac {u_ {t}} {x_ {t}}} = 0}

{\ displaystyle \ lambda _ {t + 1} - \ lambda _ {t} = - {\ frac {\ partial H} {\ partial x_ {t}}} = - \ left ({\ frac {u_ {t}) } {x_ {t}}} \ right) ^ {2}}

Поскольку владелец рудника не ценит оставшуюся руду во времени , ${\ displaystyle T}$

{\ displaystyle \ lambda _ {T} = 0 \!}

Используя приведенное выше уравнение, легко решить для и серий ${\ displaystyle x_ {t}}$ ${\ displaystyle \ lambda _ {t}}$

{\ displaystyle \ lambda _ {t} = \ lambda _ {t + 1} + {\ frac {(p- \ lambda _ {t + 1}) ^ {2}} {4}}}

{\ displaystyle x_ {t + 1} = x_ {t} {\ frac {2-p + \ lambda _ {t + 1}} {2}}}

и используя начальные условия и условия поворота-T, ряд может быть решен явно, давая . ${\ displaystyle x_ {t}}$ ${\ displaystyle u_ {t}}$

2. Непрерывная версия

Менеджер максимизирует прибыль : ${\ displaystyle \ Pi}$

{\ Displaystyle \ Pi = \ int \ limits _ {0} ^ {T} \ left [pu (t) - {\ frac {u (t) ^ {2}} {x (t)}} \ right] dt }

где переменная состояния изменяется следующим образом: ${\ Displaystyle х (т)}$

{\ Displaystyle {\ точка {х}} (т) = - и (т)}

Сформируем гамильтониан и продифференцируем:

{\ Displaystyle Н = пу (т) - {\ гидроразрыва {и (т) ^ {2}} {х (т)}} - \ лямбда (т) и (т)}

{\ displaystyle {\ frac {\ partial H} {\ partial u}} = p- \ lambda (t) -2 {\ frac {u (t)} {x (t)}} = 0}

{\ displaystyle {\ dot {\ lambda}} (t) = - {\ frac {\ partial H} {\ partial x}} = - \ left ({\ frac {u (t)} {x (t)}) } \ right) ^ {2}}

Поскольку владелец рудника не ценит оставшуюся руду во времени , ${\ displaystyle T}$

{\ displaystyle \ lambda (T) = 0}

Используя приведенные выше уравнения, легко решить дифференциальные уравнения, определяющие и ${\ Displaystyle и (т)}$ ${\ Displaystyle \ лямбда (т)}$