Функція цінності
Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.[1][2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x.[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».[4][5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.[6][7]
У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При , типова задача оптимального керування полягає в
за умови, що
з початковим станом
.[8] Цільова функція
має бути максимізовано за всіма допустимими діями
, де
є функцією вимірною за мірою Лебега, яка відображає інтервал
у визначену підмножину
. Тоді функція цінності має вигляд
з
, де
— це «втрати». Якщо
— це оптимальна пара векторів дій та станів, то
. Функція
, яка повертає оптимальний вектор дій
для стану
називається функцією стратегії.[9]
Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі , приймаючи поточний стан за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,
де максимум у правій частині також можна переписати як Шаблон:Не перекладено,
, як
з відіграють роль Шаблон:Нп.[11] Враховуючи це, маємо , і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно рівняння має вигляд
яке після заміни відповідних членів відновлює Шаблон:Не перекладено
де це нотація Ньютона для похідної за часом.[12]
Функція цінності є унікальним Шаблон:Не перекладено рівняння Гамільтона–Якобі–Беллмана.[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.[14]
Примітки
Подальше читання
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite web
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite book
- ↑ Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows an application of the envelope theorem, see Шаблон:Cite journal Also see Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ Шаблон:Cite journal
- ↑ Theorem 10.1 in Шаблон:Cite web
- ↑ Шаблон:Cite book