Функція цінності

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.[1][2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x.[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».[4][5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.[6][7]

У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При (t0,x0)[0,t1]×d, типова задача оптимального керування полягає в

maximizeJ(t0,x0;u)=t0t1I(t,x(t),u(t))dt+ϕ(x(t1))

за умови, що

dx(t)dt=f(t,x(t),u(t))

з початковим станом

x(t0)=x0

.[8] Цільова функція

J(t0,x0;u)

має бути максимізовано за всіма допустимими діями

uU[t0,t1]

, де

u

є функцією вимірною за мірою Лебега, яка відображає інтервал

[t0,t1]

у визначену підмножину

m

. Тоді функція цінності має вигляд

V(t,x(t))=maxuUtt1I(τ,x(τ),u(τ))dτ+ϕ(x(t1))

з

V(t1,x(t1))=ϕ(x(t1))

, де

ϕ(x(t1))

 — це «втрати». Якщо

(x,u)

 — це оптимальна пара векторів дій та станів, то

V(t0,x0)=J(t0,x0;u)

. Функція

h

, яка повертає оптимальний вектор дій

u

для стану

x

називається функцією стратегії.[9]

Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі t, t0tt1 приймаючи поточний стан x(t) за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,

V(t,x)t=maxu{I(t,x,u)+V(t,x)xf(t,x,u)}

де максимум у правій частині також можна переписати як Шаблон:Не перекладено,

H(t,x,u,λ)=I(t,x,u)+λ(t)f(t,x,u), як

V(t,x)t=maxuH(t,x,u,λ)

з V(t,x)/x=λ(t) відіграють роль Шаблон:Нп.[11] Враховуючи це, маємо dλ(t)/dt=2V(t,x)/xt+2V(t,x)/x2f(x), і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно x рівняння має вигляд

2V(t,x)tx=Ix+2V(t,x)x2f(x)+V(t,x)xf(x)x

яке після заміни відповідних членів відновлює Шаблон:Не перекладено

λ˙(t)=Ix+λ(t)f(x)x=Hx

де λ˙(t) це нотація Ньютона для похідної за часом.[12]

Функція цінності є унікальним Шаблон:Не перекладено рівняння Гамільтона–Якобі–Беллмана.[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.[14]

Примітки

Шаблон:Reflist

Подальше читання