Умови Вольфе

Матеріал з testwiki
Версія від 09:36, 25 грудня 2019, створена imported>Леонід Панасюк
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

У необмеженій проблемі мінімізації умови Вулфа - це сукупність нерівностей для здійснення приблизного пошуку ліній, особливо у квазі-Ньютонових методах, вперше опублікованих Філіпом Вулфом у 1969 році.

У цих методах головна ідея - це знайти

minxf(𝐱)

Для певної гладкої функції f:n. Кожен крок часто включає наближене вирішення підпроблеми

minαf(𝐱k+α𝐩k)

де 𝐱k - це найкраща поточна апроксимація, 𝐩kn няпрямок пошуку і α довжина кроку.

Приблизний лінійний пошук забезпечує ефективний спосіб обчислення прийнятної довжини кроку α, що знижує цільову функцію "достатньо", а не мінімізує ЇЇ на α+. Алгоритм лінійного пошуку може використовувати умови Вулфа як вимогу для будь-якої апроксимації α, перш ніж знайти новий напрямок пошуку 𝐩k.

Правило Армійо і кривизна

Довжина кроку ak відповідає умовам Вулфа, обмеженим напрямком 𝐩k, якщо мають місце дві нерівності:

i)f(𝐱k+αk𝐩k)f(𝐱k)+c1αk𝐩kTf(𝐱k),ii)𝐩kTf(𝐱k+αk𝐩k)c2𝐩kTf(𝐱k),

із 0<c1<c2<1 (В умові (ii), завуважте, щоб 𝐩k був напрямком спуску, ми маємо 𝐩kTf(𝐱k)<0, як у випадку спуску градієнта, де 𝐩k=f(𝐱k), або Ньютон – Рафсон, де 𝐩k=𝐇1f(𝐱k) де 𝐇 позитивно визначена.)

c1зазвичай обирається зовсім невеликим, тоді як c2 значно більший; Nocedal і Wright[1] дають приклади значень c1=104 і c2=0.9 для методів Ньютона або квазі-Ньютона і c2=0.1 для нелінійного методу градієнта спряжених. Нерівність i) відома як правило Армійо[2] та ii) як умова кривизни; i) гарантує, що довжина кроку αk зменшує f 'достатньо', і ii) забезпечує зменшення нахилу в достатній мірі. Умови i) та ii) можуть бути інтерпретовані відповідно до надання верхньої та нижньої меж допустимих значень довжини кроку.

Сильний умови Вулфа на кривизні

Позначимо одновимірну функцію φ обмеженою в напрямку 𝐩k як φ(α)=f(𝐱k+α𝐩k). Умови Вулфа можуть призвести до значення довжини кроку, не близького до мінімізатора φ. Якщо ми змінимо умову кривизни на наступне,

iii)|𝐩kTf(𝐱k+αk𝐩k)|c2|𝐩kTf(𝐱k)|

то i) та iii) разом утворюють так звані сильні умови Вулфа і змушують αk лежати близько до критичної точки φ.

Обґрунтування

Основна причина накладення умов Вульфа в алгоритмі оптимізації, де 𝐱k+1=𝐱k+α𝐩k забезпечить збіжність градієнта до нуля. Зокрема, якщо косинус кута між 𝐩k та градієнтом,

cosθk=f(𝐱k)T𝐩kf(𝐱k)𝐩k

обмежений від нуля, а умови i) та ii) виконуються, тоді f(𝐱k)0.

Додатковою мотивацією у випадку квазі-Ньютонського методу є те, що якщо 𝐩k=Bk1f(𝐱k), де матриця Bk оновлюється формулою BFGS або DFP, тоді якщо Bk є позитивно визначеною ii) означає Bk+1 також є позитивно визначеню.

Посилання