Оптимальна зупинка

Матеріал з testwiki
Версія від 14:14, 4 грудня 2024, створена imported>BunykBot (автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

У математиці теорія оптимальної зупинки[1][2] або ранньої зупинки[3] пов'язана з задачею вибору часу для здійснення певної дії, щоб максимізувати очікувану винагороду або мінімізувати очікувані витрати. Проблеми оптимальної зупинки можна знайти в областях статистики, економіки та фінансової математики (які пов'язані із ціноутворенням американських опціонів). Ключовим прикладом задачі оптимальної зупинки є задача про перебірливу наречену (в англомовній літературі зустрічається також під назвою задача про секретаря). Проблеми оптимальної зупинки часто можна записати у формі рівняння Беллмана, і тому їх часто розв'язують за допомогою динамічного програмування.

Визначення

Випадок безперервного часу

Задачі з правилом зупинки пов'язані з двома об'єктами:

  1. Послідовність випадкових величин X1,X2,, спільний розподіл яких вважається відомим
  2. Послідовність функцій «винагороди». (yi)i1 які залежать від спостережуваних значень випадкових величин:
    yi=yi(x1,,xi)

Грунтуючись на інформації про ці об'єкти, задача полягає в наступному:

  • Ви спостерігаєте за послідовністю випадкових величин, причому на кожному кроці i, ви можете припинити спостереження або продовжити
  • Якщо ви припините спостереження на кроці i, ви отримаєте винагороду yi
  • Ви хочете вивести правило зупинки, щоб максимізувати очікувану винагороду (або, що еквівалентно, мінімізувати очікувані втрати)

Випадок дискретного часу

Розглянемо процес посилення G=(Gt)t0 визначений у відфільтрованому ймовірнісному просторі (Ω,,(t)t0,) і припустимо, що G пристосований до фільтрації. Оптимальна задача зупинки полягає в знаходженні часу зупинки τ*, що максимізує очікуваний прибуток

VtT=𝔼Gτ*=suptτT𝔼Gτ

де VtT називається функцією цінності (T може мати значення ).

Більш конкретне формулювання виглядає наступним чином. Ми розглядаємо адаптований сильний марковський ланцюг X=(Xt)t0 визначений у відфільтрованому ймовірнісному просторі (Ω,,(t)t0,x), де x позначає міру ймовірності, з якої починається випадковий процес x. Задані неперервні функції M,L, і K, оптимальна задача зупинки це

V(x)=sup0τT𝔼x(M(Xτ)+0τL(Xt)dt+sup0tτK(Xt)).

Ще інколи називають формулою MLS (що розшифровується як Mayer, Lagrange and supremum відповідно).[4]

Методи вирішення

Загалом існує два підходи до вирішення задачі оптимальної зупинки.[4] Коли основний процес (або процес посилення) описується безумовними кінцевовимірними розподілами, відповідним методом вирішення є мартингальний підхід, який називається так тому, що він використовує мартингальну теорію, найважливішою концепцією якої є Шаблон:Нп. У випадку дискретного часу, якщо горизонт планування T скінченний, задачу також можна легко вирішити за допомогою динамічного програмування.

Коли основний процес визначається сімейством (умовних) функцій переходу, що веде до марковського сімейства ймовірностей переходу, часто можна використовувати потужні аналітичні інструменти, надані теорією марковських процесів, і цей підхід називають методом Маркова. Розв'язок зазвичай отримують розв'язуванням пов'язаних Шаблон:Нп (Шаблон:Нп).

Результат дифузії стрибка

Нехай Yt буде дифузією Леві в k, яка описується СДР

dYt=b(Yt)dt+σ(Yt)dBt+kγ(Yt,z)N¯(dt,dz),Y0=y

де B є m-мірний броунівський рух, N¯ є l-вимірна компенсована Шаблон:Нп, b:kk, σ:kk×m, і γ:k×kk×l - задані функції такі, що існує єдиний розв'язок (Yt). Нехай 𝒮k буде відкритою множиною (областю платоспроможності) і

τ𝒮=inf{t>0:Yt𝒮}

буде часом банкрутства. Оптимальна задача зупинки:

V(y)=supττ𝒮Jτ(y)=supττ𝒮𝔼y[M(Yτ)+0τL(Yt)dt].

Виявляється, що за деяких умов регулярності[5] справедлива перевірочна теорема: Якщо функція ϕ:𝒮¯ задовольняє

  • ϕC(𝒮¯)C1(𝒮)C2(𝒮D), де область продовження це D={y𝒮:ϕ(y)>M(y)},
  • ϕM на 𝒮, і
  • 𝒜ϕ+L0 на 𝒮D, де 𝒜 є Шаблон:Нп (Yt),

то ϕ(y)V(y) для усіх y𝒮¯. Крім того, якщо

  • 𝒜ϕ+L=0 на D

Тоді ϕ(y)=V(y) для усіх y𝒮¯ і τ*=inf{t>0:YtD} — це оптимальний час зупинки.

Ці умови також можна записати в більш компактній формі (Шаблон:Нп):

  • max{𝒜ϕ+L,Mϕ}=0 на 𝒮D.

Приклади

Підкидання монети

(Приклад, де 𝔼(yi) сходиться)

У вас є «чесна» монета, і ви постійно її підкидаєте. Кожного разу, перш ніж її підкинути, ви можете зупинити її підкидання та отримати виплату (скажімо, у гривнах) за середню кількість спостережених орлів.

Ви хочете максимізувати суму, яку вам платять, вибравши правило зупинки. Якщо Xi (для i ≥ 1) утворює послідовність незалежних, однаково розподілених випадкових величин із розподілом Бернуллі

Bern(12),

і якщо

yi=1ik=1iXk

тоді послідовності (Xi)i1, і (yi)i1 — це об'єкти, пов'язані з цією задачею.

Продаж будинку

(Приклад, де 𝔼(yi) не обов'язково сходиться)

У вас є будинок і ви хочете його продати. Кожен день вам пропонують Xn за ваш будинок, і ви платите k продовжуючи рекламу будинку. Якщо ви продаєте свій будинок в день n, ви заробите yn, де yn=(Xnnk).

Ви хочете максимізувати зароблену суму, вибравши правило зупинки.

У цьому прикладі послідовність (Xi) — це послідовність пропозицій для вашого будинку, а послідовність функцій винагород — це те, скільки ви заробите.

Задача про перебірливу наречену

Шаблон:Main (Приклад де (Xi) є скінченною послідовністю)

Ви спостерігаєте за послідовністю об'єктів, які можна ранжувати від найкращого до найгіршого. Ви хочете вибрати правило зупинки, яке максимізує ваші шанси вибрати найкращий об'єкт.

Ось, якщо R1,,Rn (n — деяке велике число) — ранги об'єктів, і yi — це ймовірність вибору найкращого об'єкта, якщо ви припините навмисно відхиляти об'єкти на кроці i (Ri) і (yi) — це послідовності, пов'язані з цією задачею. Ця задача була розв'язана на початку 1960-х років кількома людьми. Елегантне розв'язання задачі про перебірливу наречену та кілька модифікацій цієї задачі забезпечує більш сучасний алгоритм шансів (алгоритм Брюса).

Теорія пошуку

Економісти досліджували низку проблем оптимальної зупинки, подібних до «задач про перебірливу наречену», і зазвичай називають цей тип аналізу «теорією пошуку». Теорія пошуку особливо зосереджена на пошуку працівником високооплачуваної роботи або пошуку споживачем недорогого товару.

Проблема паркування

Особливим прикладом застосування теорії пошуку є задача оптимального вибору паркувального місця водієм, який прямує в оперу (театр, шопінг тощо). Наближаючись до пункту призначення, водій їде вулицею, вздовж якої є паркувальні місця — зазвичай вільними є лише деякі місця на парковці. Ціль добре видно, тому відстань до цілі оцінюється легко. Завдання водія — вибрати вільне місце для паркування якомога ближче до пункту призначення, не їздячи по колу, щоб відстань від цього місця до місця призначення була найменшою.[6]

Торгівля опціонами

Під час торгівлі опціонами на фінансових ринках власнику американського опціону дозволяється скористатися правом купити (або продати) базовий актив за заздалегідь визначеною ціною в будь-який час до або на дату закінчення терміну дії. Таким чином, оцінка американських опціонів є, по суті, проблемою оптимальної зупинки. Розглянемо класичну модель Блека — Шоулза і дозволимо r бути безризиковою процентною ставкою та δ і σ — це ставка дивідендів і волатильність акцій. Ціна акцій S підпорядковується геометричному броунівському руху

St=S0exp{(rδσ22)t+σBt}

за нейтральною до ризику мірою.

Коли опція безстрокова, проблема оптимальної зупинки є

V(x)=supτ𝔼x[erτg(Sτ)],

де функція виплати g(x)=(xK)+ для опції call (далі «колл») і g(x)=(Kx)+ для put-опціону (далі «пут»). Варіаційна нерівність є

max{12σ2x2V(x)+(rδ)xV(x)rV(x),g(x)V(x)}=0

для усіх x(0,){b}, де b є межею вправи. Відомо, що розв'язок[7]

  • (Вічний колл) V(x)={(bK)(x/b)γx(0,b)xKx[b,) де γ=(ν2+2rν)/σ і ν=(rδ)/σσ/2,b=γK/(γ1).
  • (Вічний пут) V(x)={Kxx(0,c](Kc)(x/c)γ~x(c,) де γ~=(ν2+2r+ν)/σ і ν=(rδ)/σσ/2,c=γ~K/(γ~1).

З іншого боку, коли термін придатності обмежений, задача пов'язана з двовимірною задачею з вільними границями, яка не має відомого розв'язку в замкненому вигляді. Однак можна застосувати різні чисельні методи. Див. модель Блека–Шоулза для різних методів оцінки, а також Шаблон:Нп для дискретного розрахунку оптимального часу для тренування Шаблон:Нп.

Див. також

Список літератури

Цитування

Джерела

Шаблон:Refbegin

Шаблон:Refend