Метод спряженого градієнта

Порівняння збіжності градієнтного спуску з оптимальним розміром кроку (зеленим) та кон'югованим вектором (червоним кольором) для мінімізації квадратичної функції, пов'язаної із заданою лінійною системою. Спряжений градієнт, припускаючи точну арифметику, сходиться не більше n кроків, де n - розмір матриці системи (тут n = 2).

У математиці метод спря́женого градієнта є алгоритмом чисельного рішення окремих систем лінійних рівнянь, а саме тих, чия матриця симетрична і позитивно-визначена. Метод спряженого градієнта часто реалізовується як ітераційний алгоритм, застосовний до розріджених систем, які занадто великі, щоб обробляти їх шляхом прямої реалізації або інших прямих методів, таких як декомпозиція Холеського. Великі розріджені системи часто виникають при чисельному вирішенні часткових диференціальних рівнянь або задачах оптимізації.

Метод спряженого градієнта також може бути використаний для вирішення необмежених задач оптимізації, таких як мінімізація енергії . Його в основному розробили Магнус Гестенес та Едуард Стіфель ^[1] які запрограмували його на Z4 .

Метод двобічного спряженого градієнта забезпечує узагальнення до несиметричних матриць. Різні методи нелінійного спряженого градієнта шукають мінімуми нелінійних рівнянь.

Опис задачі, котру вирішують сполучені градієнти

Припустимо, ми хочемо розв’язати систему лінійних рівнянь

𝐀 𝐱 = 𝐛

для вектора x, де відома n × n матриця A симетрична (тобто A ^T = A ), позитивно-визначена (тобто x ^T Ax > 0 для всіх ненульових векторів x в R ⁿ ), і реальна, і b також відомо. Позначимо унікальний розв'язок цієї системи через $𝐱_{*}$ .

Прямий метод

Ми припускаємо, що два ненульові вектори u і v є сполученими (щодо А ), якщо

𝐮^{𝖳} 𝐀 𝐯 = 0.

Оскільки A симетрична і позитивно-визначена, ліва частина визначає внутрішній добуток

𝐮^{𝖳} 𝐀 𝐯 = ⟨ 𝐮, 𝐯 ⟩_{𝐀} := ⟨ 𝐀 𝐮, 𝐯 ⟩ = ⟨ 𝐮, 𝐀^{𝖳} 𝐯 ⟩ = ⟨ 𝐮, 𝐀 𝐯 ⟩ .

Два вектори є сполученими тоді і лише тоді, коли вони ортогональні щодо цього внутрішнього добутку. Будучи сполученим - це симетричне відношення: якщо u є спряженим на v, то v є спряженим на u . Припустимо, що

P = {𝐩_{1}, \dots, 𝐩_{n}}

являє собою сукупність n взаємно сполучених векторів (щодо А ). Тоді Шаблон:Mvar становить основу для $ℝ^{n}$ , і ми можемо висловити рішення Шаблон:Math of $𝐀 𝐱 = 𝐛$ виходячи з цього:

𝐱_{*} = \sum_{i = 1}^{n} α_{i} 𝐩_{i} .

На основі цього розширення ми обчислюємо:

𝐀 𝐱_{*} = \sum_{i = 1}^{n} α_{i} 𝐀 𝐩_{i} .

Ліву частину множимо на $𝐩_{k}^{𝖳}$ :

𝐩_{k}^{𝖳} 𝐀 𝐱_{*} = \sum_{i = 1}^{n} α_{i} 𝐩_{k}^{𝖳} 𝐀 𝐩_{i},

підставляючи $𝐀 𝐱_{*} = 𝐛$ і $𝐮^{𝖳} 𝐀 𝐯 = ⟨ 𝐮, 𝐯 ⟩_{𝐀}$ :

𝐩_{k}^{𝖳} 𝐛 = \sum_{i = 1}^{n} α_{i} {⟨ 𝐩_{k}, 𝐩_{i} ⟩}_{𝐀},

потім $𝐮^{𝖳} 𝐯 = ⟨ 𝐮, 𝐯 ⟩$ і використання $\forall i \neq k : ⟨ 𝐩_{k}, 𝐩_{i} ⟩_{𝐀} = 0$ врожайність

⟨ 𝐩_{k}, 𝐛 ⟩ = α_{k} ⟨ 𝐩_{k}, 𝐩_{k} ⟩_{𝐀},

що означає

α_{k} = \frac{⟨ 𝐩_{k}, 𝐛 ⟩}{⟨ 𝐩_{k}, 𝐩_{k} ⟩_{𝐀}} .

Це дає наступний метод розв’язання рівняння Шаблон:Math : знайти послідовність n спрямованих напрямків, а потім обчислити коефіцієнти Шаблон:Mvar .

Як ітеративний метод

Якщо ми обережно оберемо сполучені вектори p _k, то, можливо, нам не знадобляться всі, щоб отримати гарне наближення до рішення Шаблон:Math . Отже, ми хочемо розглянути метод спряженого градієнта як ітераційний метод. Це також дозволяє приблизно вирішити системи, де n настільки велике, що прямий метод зайняв би занадто багато часу.

Позначимо початкове припущення для Шаблон:Math через Шаблон:Math (можна без втрати загальності вважати, що Шаблон:Math, інакше розглянемо систему Az = b - Ax ₀ ). Починаючи з x₀ ми шукаємо вирішення і в кожній ітерації ми повинні мати метрику, котра зможєе сказати нам чи ми ближче до вирішення Шаблон:Math, нам це невідомо). Ця метрика випливає з того, що рішення Шаблон:Math також є унікальним мінімізатором наступної квадратичної функції

f (𝐱) = \frac{1}{2} 𝐱^{𝖳} 𝐀 𝐱 - 𝐱^{𝖳} 𝐛, 𝐱 \in 𝐑^{n} .

Існування унікального мінімізатора очевидно, оскільки його друга похідна задана симетричною позитивно-визначеною матрицею

\nabla^{2} f (𝐱) = 𝐀,

і що мінімалізатор (виокристовує Df(x) = 0) вирішує початкову задачу очевидно з її першої похідної

\nabla f (𝐱) = 𝐀 𝐱 - 𝐛 .

Це говорить про те, щоб перший базовий вектор p ₀ був від'ємним градієнтом f при x = x ₀ . Градієнт f дорівнює Шаблон:Math . Починаючи з початкової здогадки x ₀, це означає, що беремо p ₀ = b - Ax ₀ . Інші вектори в основі будуть спряжені з градієнтом, звідси і назва метод спряженого градієнта . Зауважимо, що p ₀ також є залишковим, передбаченим цим початковим кроком алгоритму.

Нехай r _k - залишок на k- му кроці:

𝐫_{k} = 𝐛 - {𝐀 𝐱}_{k} .

Як було зазначено вище, r _k - від'ємний градієнт f при x = x _k, тому метод спуску градієнтом потребує руху в напрямку r _k . Тут, однак, ми наполягаємо, щоб напрямки p _k були сполучені один з одним. Практичний спосіб забезпечити це - вимагаючи, щоб наступний напрямок пошуку був побудований з поточного залишкового та всіх попередніх напрямків пошуку. ^[2] Це дає такий вираз:

𝐩_{k} = 𝐫_{k} - \sum_{i < k} \frac{𝐩_{i}^{𝖳} 𝐀 𝐫_{k}}{𝐩_{i}^{𝖳} 𝐀 𝐩_{i}} 𝐩_{i}

(див. малюнок у верхній частині статті про вплив обмеження спряженості на збіжність). Слідуючи цьому напрямку, наступне оптимальне місце задається

𝐱_{k + 1} = 𝐱_{k} + α_{k} 𝐩_{k}

з

α_{k} = \frac{𝐩_{k}^{𝖳} (𝐛 - {𝐀 𝐱}_{k})}{𝐩_{k}^{𝖳} 𝐀 𝐩_{k}} = \frac{𝐩_{k}^{𝖳} 𝐫_{k}}{𝐩_{k}^{𝖳} 𝐀 𝐩_{k}},

де остання рівність випливає з визначення r _k . Вираз для $α_{k}$ може бути отримано, якщо підміняти вираз x _{k +1} на f і мінімізувати його wrt $α_{k}$

\begin{matrix} f (𝐱_{k + 1}) & = f (𝐱_{k} + α_{k} 𝐩_{k}) = : g (α_{k}) \\ g^{'} (α_{k}) & \overset{!}{=} 0 \Rightarrow α_{k} = \frac{𝐩_{k}^{𝖳} (𝐛 - {𝐀 𝐱}_{k})}{𝐩_{k}^{𝖳} 𝐀 𝐩_{k}} . \end{matrix}

Отриманий алгоритм

Наведений вище алгоритм дає найбільш просте пояснення методу спряженого градієнта. Здається, алгоритм, як заявлено, вимагає зберігання всіх попередніх напрямків пошуку та векторів залишків, а також багатьох матричних векторних множень, і, таким чином, може бути обчислювально дорогим. Однак більш детальний аналіз алгоритму показує, що r _i є ортогональним до r _j, тобто $𝐫_{i}^{𝖳} 𝐫_{j} = 0$ , для i ≠ j. І p _i - A-ортогональна до p _j, тобто $𝐩_{i}^{𝖳} A 𝐩_{j} = 0$ , для i ≠ j. Це можна вважати, що в міру просування алгоритму p _i і r _i охоплюють той самий підпростір Крилова. Якщо r _я утворює ортогональну основу відносно стандартного внутрішнього добутку, а p _i утворює ортогональну основу відносно внутрішнього добутку, індукованого А. Тому x _k можна розглядати як проєкцію x на підпростір Крилова.

Алгоритм детально описаний нижче для розв’язання Ax = b, де A - реальна, симетрична, позитивно-визначена матриця. Вхідний вектор x ₀ може бути приблизним початковим рішенням або 0 . Це інша рецептура точної процедури, описаної вище.

\begin{matrix} 𝐫_{0} := 𝐛 - {𝐀 𝐱}_{0} \\ if 𝐫_{0} is sufficiently small, then return 𝐱_{0} as the result \\ 𝐩_{0} := 𝐫_{0} \\ k := 0 \\ repeat \\ α_{k} := \frac{𝐫_{k}^{𝖳} 𝐫_{k}}{𝐩_{k}^{𝖳} {𝐀 𝐩}_{k}} \\ 𝐱_{k + 1} := 𝐱_{k} + α_{k} 𝐩_{k} \\ 𝐫_{k + 1} := 𝐫_{k} - α_{k} {𝐀 𝐩}_{k} \\ if 𝐫_{k + 1} is sufficiently small, then exit loop \\ β_{k} := \frac{𝐫_{k + 1}^{𝖳} 𝐫_{k + 1}}{𝐫_{k}^{𝖳} 𝐫_{k}} \\ 𝐩_{k + 1} := 𝐫_{k + 1} + β_{k} 𝐩_{k} \\ k := k + 1 \\ end repeat \\ return 𝐱_{k + 1} as the result \end{matrix}

Це найбільш часто використовуваний алгоритм. Така ж формула для Шаблон:Mvar також використовується в нелінійному методі градієнта Флетчера-Рівза.

Розрахунок альфа та бета-версії

В алгоритмі Шаблон:Mvar вибирається таким, що $𝐫_{k + 1}$ є ортогональним до r _k . Знаменник спрощено від

α_{k} = \frac{𝐫_{k}^{𝖳} 𝐫_{k}}{𝐫_{k}^{𝖳} 𝐀 𝐩_{k}} = \frac{𝐫_{k}^{𝖳} 𝐫_{k}}{𝐩_{k}^{𝖳} {𝐀 𝐩}_{k}}

з тих пір $𝐫_{k + 1} = 𝐩_{k + 1} - 𝜷_{k} 𝐩_{k}$ . Шаблон:Mvar вибирається таким, що $𝐩_{k + 1}$ сполучається з p _k . Спочатку Шаблон:Mvar є

β_{k} = - \frac{𝐫_{k + 1}^{𝖳} 𝐀 𝐩_{k}}{𝐩_{k}^{𝖳} 𝐀 𝐩_{k}}

використовуючи

𝐫_{k + 1} = 𝐫_{k} - α_{k} 𝐀 𝐩_{k}

і рівнозначно

$𝐀 𝐩_{k} = \frac{1}{α_{k}} (𝐫_{k} - 𝐫_{k + 1}),$

чисельник Шаблон:Mvar переписується як

𝐫_{k + 1}^{𝖳} 𝐀 𝐩_{k} = \frac{1}{α_{k}} 𝐫_{k + 1}^{𝖳} (𝐫_{k} - 𝐫_{k + 1}) = - \frac{1}{α_{k}} 𝐫_{k + 1}^{𝖳} 𝐫_{k + 1}

оскільки $𝐫_{k + 1}$ і r _k є ортогональними за конструкцією. Знаменник переписується як

𝐩_{k}^{𝖳} 𝐀 𝐩_{k} = (𝐫_{k} + β_{k - 1} 𝐩_{k - 1})^{𝖳} 𝐀 𝐩_{k} = \frac{1}{α_{k}} 𝐫_{k}^{𝖳} (𝐫_{k} - 𝐫_{k + 1}) = \frac{1}{α_{k}} 𝐫_{k}^{𝖳} 𝐫_{k}

використовуючи, що напрямки пошуку p _k кон'югуються і знову, що залишки є ортогональними. Це дає Шаблон:Mvar в алгоритмі після скасування Шаблон:Mvar .

Приклад коду в MATLAB / GNU Octave

function x = conjgrad(A, b, x)
    r = b - A * x;
    p = r;
    rsold = r' * r;

    for i = 1:length(b)
        Ap = A * p;
        alpha = rsold / (p' * Ap);
        x = x + alpha * p;
        r = r - alpha * Ap;
        rsnew = r' * r;
        if sqrt(rsnew) < 1e-10
              break;
        end
        p = r + (rsnew / rsold) * p;
        rsold = rsnew;
    end
end

Числовий приклад

Розглянемо лінійну систему Ax = b, задану через

𝐀 𝐱 = [\begin{matrix} 4 & 1 \\ 1 & 3 \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = [\begin{matrix} 1 \\ 2 \end{matrix}],

ми виконаємо два етапи методу спряженого градієнта, починаючи з початкової здогадки

𝐱_{0} = [\begin{matrix} 2 \\ 1 \end{matrix}]

щоб знайти приблизне рішення для системи.

Рішення

Для довідки правильне рішення

𝐱 = [\begin{matrix} \frac{1}{11} \\ \frac{7}{11} \end{matrix}] \approx [\begin{matrix} 0.0909 \\ 0.6364 \end{matrix}]

Наш перший крок - обчислити залишковий вектор r _0, пов'язаний з x ₀ . Цей залишок обчислюється за формулою r ₀ = b - Ax ₀, а в нашому випадку дорівнює

𝐫_{0} = [\begin{matrix} 1 \\ 2 \end{matrix}] - [\begin{matrix} 4 & 1 \\ 1 & 3 \end{matrix}] [\begin{matrix} 2 \\ 1 \end{matrix}] = [\begin{matrix} - 8 \\ - 3 \end{matrix}] .

Оскільки це перша ітерація, ми будемо використовувати залишковий вектор r ₀ як наш початковий напрямок пошуку p ₀ ; метод вибору p _k зміниться в подальших ітераціях.

Тепер обчислимо скалярний Шаблон:Math використовуючи відношення

α_{0} = \frac{𝐫_{0}^{𝖳} 𝐫_{0}}{𝐩_{0}^{𝖳} {𝐀 𝐩}_{0}} = \frac{[\begin{matrix} - 8 & - 3 \end{matrix}] [\begin{matrix} - 8 \\ - 3 \end{matrix}]}{[\begin{matrix} - 8 & - 3 \end{matrix}] [\begin{matrix} 4 & 1 \\ 1 & 3 \end{matrix}] [\begin{matrix} - 8 \\ - 3 \end{matrix}]} = \frac{73}{331} .

Тепер ми можемо обчислити х _1, використовуючи формулу

𝐱_{1} = 𝐱_{0} + α_{0} 𝐩_{0} = [\begin{matrix} 2 \\ 1 \end{matrix}] + \frac{73}{331} [\begin{matrix} - 8 \\ - 3 \end{matrix}] = [\begin{matrix} 0.2356 \\ 0.3384 \end{matrix}] .

Цей результат завершує першу ітерацію, результатом якої є "покращене" приблизне рішення для системи, x ₁ . Тепер ми можемо перейти і обчислити наступний залишковий вектор r ₁ за формулою

𝐫_{1} = 𝐫_{0} - α_{0} 𝐀 𝐩_{0} = [\begin{matrix} - 8 \\ - 3 \end{matrix}] - \frac{73}{331} [\begin{matrix} 4 & 1 \\ 1 & 3 \end{matrix}] [\begin{matrix} - 8 \\ - 3 \end{matrix}] = [\begin{matrix} - 0.2810 \\ 0.7492 \end{matrix}] .

Наступним нашим кроком у процесі є обчислення скалярного Шаблон:Math яке згодом буде використано для визначення наступного напрямку пошуку p ₁ .

β_{0} = \frac{𝐫_{1}^{𝖳} 𝐫_{1}}{𝐫_{0}^{𝖳} 𝐫_{0}} = \frac{[\begin{matrix} - 0.2810 & 0.7492 \end{matrix}] [\begin{matrix} - 0.2810 \\ 0.7492 \end{matrix}]}{[\begin{matrix} - 8 & - 3 \end{matrix}] [\begin{matrix} - 8 \\ - 3 \end{matrix}]} = 0.0088.

Тепер, використовуючи цей скаляр Шаблон:Math, ми можемо обчислити наступний напрямок пошуку p _1, використовуючи відношення

𝐩_{1} = 𝐫_{1} + β_{0} 𝐩_{0} = [\begin{matrix} - 0.2810 \\ 0.7492 \end{matrix}] + 0.0088 [\begin{matrix} - 8 \\ - 3 \end{matrix}] = [\begin{matrix} - 0.3511 \\ 0.7229 \end{matrix}] .

Тепер ми обчислюємо скалярний Шаблон:Math використовуючи нещодавно придбаний p _1, використовуючи той самий метод, що і для Шаблон:Math .

α_{1} = \frac{𝐫_{1}^{𝖳} 𝐫_{1}}{𝐩_{1}^{𝖳} {𝐀 𝐩}_{1}} = \frac{[\begin{matrix} - 0.2810 & 0.7492 \end{matrix}] [\begin{matrix} - 0.2810 \\ 0.7492 \end{matrix}]}{[\begin{matrix} - 0.3511 & 0.7229 \end{matrix}] [\begin{matrix} 4 & 1 \\ 1 & 3 \end{matrix}] [\begin{matrix} - 0.3511 \\ 0.7229 \end{matrix}]} = 0.4122.

Нарешті, ми знаходимо х _2, використовуючи той самий метод, що і для знаходження х ₁ .

𝐱_{2} = 𝐱_{1} + α_{1} 𝐩_{1} = [\begin{matrix} 0.2356 \\ 0.3384 \end{matrix}] + 0.4122 [\begin{matrix} - 0.3511 \\ 0.7229 \end{matrix}] = [\begin{matrix} 0.0909 \\ 0.6364 \end{matrix}] .

Результат, x ₂, є "кращим" наближенням до рішення системи, ніж x ₁ і x ₀ . Якби точна арифметика повинна використовуватися в цьому прикладі замість обмеженої точності, то точне рішення теоретично було б досягнуте після n = 2 ітерацій ( n - це порядок системи).

Властивості збіжності

Метод спряженого градієнта теоретично можна розглядати як прямий метод, оскільки він дає точне рішення після кінцевого числа ітерацій, що не перевищує розмір матриці, за відсутності помилки округлення . Однак метод градієнта спряжених нестабільний щодо навіть невеликих збурень, наприклад, більшість напрямків на практиці не є сполученими, і точного рішення так і не отримати. На щастя, метод спряженого градієнта може бути використаний як ітераційний метод, оскільки він забезпечує монотонно поліпшення наближень $𝐱_{k}$ до точного рішення, яке може досягти необхідного допуску після відносно невеликої (порівняно з розміром проблеми) кількості ітерацій. Поліпшення, як правило, лінійне і його швидкість визначається числом умови $κ (A)$ системної матриці $A$ : тим більше $κ (A)$ є, чим повільніше поліпшення. ^[3]

Якщо $κ (A)$ велика, попередня умова використовується для заміни вихідної системи $𝐀 𝐱 - 𝐛 = 0$ з $𝐌^{- 1} (𝐀 𝐱 - 𝐛) = 0$ такий як $κ (𝐌^{- 1} 𝐀)$ менше, ніж $κ (𝐀)$ , Дивіться нижче.

Теорема конвергенції

Визначте підмножину многочленів як

Π_{k}^{*} := {p \in Π_{k} : p (0) = 1},

де $Π_{k}$ - це множина многочленів максимального ступеня $k$ .

Дозволяти ${(𝐱_{k})}_{k}$ бути ітераційним наближенням точного рішення $𝐱_{*}$ , і визначити помилки як $𝐞_{k} := 𝐱_{k} - 𝐱_{*}$ . Тепер швидкість конвергенції можна приблизно оцінити як ^[4]

\begin{matrix} {‖ 𝐞_{k} ‖}_{𝐀} & = \min_{p \in Π_{k}^{*}} {‖ p (𝐀) 𝐞_{0} ‖}_{𝐀} \\ \leq \min_{p \in Π_{k}^{*}} \max_{λ \in σ (𝐀)} | p (λ) | {‖ 𝐞_{0} ‖}_{𝐀} \\ \leq 2 {(\frac{\sqrt{κ (𝐀)} - 1}{\sqrt{κ (𝐀)} + 1})}^{k} {‖ 𝐞_{0} ‖}_{𝐀}, \end{matrix}

де $σ (𝐀)$ позначає спектр, і $κ (𝐀)$ позначає номер умови .

Зауважте, важлива межа, коли $κ (𝐀)$ схиляється до $\infty$

\frac{\sqrt{κ (𝐀)} - 1}{\sqrt{κ (𝐀)} + 1} \approx 1 - \frac{2}{\sqrt{κ (𝐀)}} for κ (𝐀) ≫ 1 .

Ця межа показує більш швидкий коефіцієнт конвергенції порівняно з ітераційними методами Якобі або Гаусса-Сейделя, які масштабуються як $\approx 1 - \frac{2}{κ (𝐀)}$ .

Метод попередньо обумовленого градієнта

У більшості випадків попередня підготовка необхідна для забезпечення швидкої конвергенції методу градієнта спряжених. Метод попередньо обумовленого градієнта має такий вигляд:

𝐫_{0} := 𝐛 - {𝐀 𝐱}_{0}

𝐳_{0} := 𝐌^{- 1} 𝐫_{0}

𝐩_{0} := 𝐳_{0}

k := 0

repeat

α_{k} := \frac{𝐫_{k}^{𝖳} 𝐳_{k}}{𝐩_{k}^{𝖳} {𝐀 𝐩}_{k}}

𝐱_{k + 1} := 𝐱_{k} + α_{k} 𝐩_{k}

𝐫_{k + 1} := 𝐫_{k} - α_{k} {𝐀 𝐩}_{k}

if r_k+1 is sufficiently small then exit loop end if

𝐳_{k + 1} := 𝐌^{- 1} 𝐫_{k + 1}

β_{k} := \frac{𝐳_{k + 1}^{𝖳} 𝐫_{k + 1}}{𝐳_{k}^{𝖳} 𝐫_{k}}

𝐩_{k + 1} := 𝐳_{k + 1} + β_{k} 𝐩_{k}

k := k + 1

end repeat

The result is x_k+1

Вищевказаний склад еквівалентний застосуванню методу градієнта спряженого без попереднього обумовлення системи Шаблон:Ref label

𝐄^{- 1} 𝐀 (𝐄^{- 1})^{𝖳} \hat{𝐱} = 𝐄^{- 1} 𝐛

де

{𝐄 𝐄}^{𝖳} = 𝐌, \hat{𝐱} = 𝐄^{𝖳} 𝐱 .

Матриця попереднього кондиціонера M повинна бути симетричною-позитивно визначеною і фіксованою, тобто не може змінюватися від ітерації до ітерації. Якщо будь-яке з цих припущень щодо попереднього кондиціонера порушено, поведінка методу попередньо обумовленого градієнта може стати непередбачуваним.

Прикладом часто використовуваного попереднього кондиціонера є неповна факторизація Холеського .

Метод гнучких попередньо обумовлених градієнтів

У важкозахисних програмах застосовуються складні попередні кондиціонери, що може призвести до змінної попередньої кондиціонування, що змінюється між ітераціями. Навіть якщо попередній кондиціонер є симетричним позитивно-визначеним на кожній ітерації, той факт, що він може змінитися, робить аргументи вище недійсними, а на практичних тестах призводить до значного уповільнення конвергенції алгоритму, представленого вище. Використовуючи формулу Поляка-Ріб'єра

β_{k} := \frac{𝐳_{k + 1}^{𝖳} (𝐫_{k + 1} - 𝐫_{k})}{𝐳_{k}^{𝖳} 𝐫_{k}}

замість формули Флетчер-Рівз

β_{k} := \frac{𝐳_{k + 1}^{𝖳} 𝐫_{k + 1}}{𝐳_{k}^{𝖳} 𝐫_{k}}

може різко покращити конвергенцію в цьому випадку. ^[5] Цей варіант попередньо обумовленого методу градієнта кон'югату можна назвати ^[6] гнучким, оскільки він дозволяє змінювати попередню умову. Також показано, що гнучка версія ^[7] є надійною, навіть якщо попередній кондиціонер не є симетричним позитивним значенням (SPD).

Реалізація гнучкої версії вимагає зберігання додаткового вектора. Для фіксованого попереднього кондиціонера SPD, $𝐳_{k + 1}^{𝖳} 𝐫_{k} = 0,$ тому обидві формули для Шаблон:Mvar еквівалентні в точній арифметиці, тобто без похибки округлення .

Математичне пояснення кращої поведінки конвергенції методу за формулою Поляка-Ріб'єра полягає в тому, що метод в цьому випадку є локально оптимальним, зокрема, він не зближується повільніше, ніж локально оптимальний метод найбільш крутого спуску. ^[8]

Приклад коду в MATLAB / GNU Octave

function [x, k] = cgp(x0, A, C, b, mit, stol, bbA, bbC)
% Synopsis:
% x0: initial point
% A: Matrix A of the system Ax=b
% C: Preconditioning Matrix can be left or right
% mit: Maximum number of iterations
% stol: residue norm tolerance
% bbA: Black Box that computes the matrix-vector product for A * u
% bbC: Black Box that computes:
%      for left-side preconditioner : ha = C \ ra
%      for right-side preconditioner: ha = C * ra
% x: Estimated solution point
% k: Number of iterations done 
%
% Example:
% tic;[x, t] = cgp(x0, S, speye(1), b, 3000, 10^-8, @(Z, o) Z*o, @(Z, o) o);toc
% Elapsed time is 0.550190 seconds.
%
% Reference:
%  Métodos iterativos tipo Krylov para sistema lineales
%  B. Molina y M. Raydan - {{ISBN|908-261-078-X}}
        if nargin < 8, error('Not enough input arguments. Try help.'); end;
        if isempty(A), error('Input matrix A must not be empty.'); end;
        if isempty(C), error('Input preconditioner matrix C must not be empty.'); end;
        x = x0;
        ha = 0;
        hp = 0;
        hpp = 0;
        ra = 0;
        rp = 0;
        rpp = 0;
        u = 0;
        k = 0;

        ra = b - bbA(A, x0); % <--- ra = b - A * x0;
        while norm(ra, inf) > stol
                ha = bbC(C, ra); % <--- ha = C \ ra;
                k = k + 1;
                if (k == mit), warning('GCP:MAXIT', 'mit reached, no conversion.'); return; end;
                hpp = hp;
                rpp = rp;
                hp = ha;
                rp = ra;
                t = rp' * hp;
                if k == 1
                        u = hp;
                else
                        u = hp + (t / (rpp' * hpp)) * u;
                end;
                Au = bbA(A, u); % <--- Au = A * u;
                a = t / (u' * Au);
                x = x + a * u;
                ra = rp - a * Au;
        end;

Місцево оптимальний метод найбільш стрімкого спуску

І в оригінальному, і в попередньо обумовленому методах градієнта кон'югату потрібно лише встановити $β_{k} := 0$ щоб зробити їх локально оптимальними, використовуючи пошук лінії, найкрутіші методи спуску . При цій підстановці вектори Шаблон:Math завжди такі ж, як вектори Шаблон:Math, тому немає необхідності зберігати вектори Шаблон:Math . Таким чином, кожна ітерація цих найбільш стрімких методів спуску є дещо дешевшою порівняно з методом спряженого градієнта. Однак останні сходяться швидше, якщо не застосовується (високо) змінна та / або попередній кондиціонер, який не є SPD, див. Вище.

Виведення методу

Метод спряженого градієнта може бути отриманий з кількох різних точок зору, включаючи спеціалізацію методу спряженого спрямування для оптимізації та варіацію ітерації Арнольді / Ланцоса для проблем власного значення. Незважаючи на розбіжність у підходах, ці виводи поділяють загальну тему - доказуючи ортогональність залишків та сукупність напрямків пошуку. Ці дві властивості мають вирішальне значення для розробки добре відомого стислого способу.

Спряження градієнта на нормальних рівняннях

Кон'югат градиентного метод може бути застосований до довільного п матриця з розмірністю м матриці, застосовуючи його до нормальним рівнянням ^Т А і права частина вектора А ^Т Ь, так як ^Т А є симетричною позитивно-полуопределена матрицею для будь-якого А. Результат - це спряжений градієнт у звичайних рівняннях (CGNR).

A ^T Ax = A ^T b

Як ітераційний метод не потрібно явно формувати A ^T A в пам'яті, а лише виконувати матричний вектор і транспонувати множення матричного вектора. Отже, CGNR особливо корисний, коли A є розрідженою матрицею, оскільки ці операції зазвичай є надзвичайно ефективними. Однак недоліком формування нормальних рівнянь є те, що число умови κ ( A ^T A ) дорівнює κ ² ( A ), тому швидкість конвергенції CGNR може бути повільною і якість приблизного рішення може бути чутливою до округлення помилки. Пошук хорошого попереднього кондиціонера часто є важливою частиною використання методу CGNR.

Запропоновано кілька алгоритмів (наприклад, CGLS, LSQR). Нібито алгоритм LSQR має найкращу числову стійкість, коли A погано обумовлений, тобто A має велике число умов .

Див. також

Метод проксимального градієнта
Метод двобічного градієнта (BiCG)
Спосіб кон'югації залишків
Пропаганда вірувань Гаусса
Ітеративний метод: Лінійні системи
Крилова підпростір
Метод нелінійного спряженого градієнта
Підготовка
Рідке множення матричного вектора

Примітки

Шаблон:Reflist

Література

Спосіб спряженого градієнта спочатку був запропонований в

Шаблон:Cite journal

Описи методу можна знайти в наступних підручниках:

Посилання

Hazewinkel, Michiel, ed. (2001) [1994], "Conjugate gradients, method of", Encyclopedia of Mathematics, Springer Science+Business Media B.V. / Kluwer Academic Publishers, ISBN 978-1-55608-010-4

Шаблон:Методи оптимізації

↑ Шаблон:Cite journal
↑ The conjugation constraint is an orthonormal-type constraint and hence the algorithm bears resemblance to Gram-Schmidt orthonormalization.
↑ Шаблон:Cite book
↑ Шаблон:Cite book
↑ Шаблон:Cite journal
↑ Шаблон:Cite journal
↑ Henricus Bouwmeester, Andrew Dougherty, Andrew V Knyazev. Nonsymmetric Preconditioning for Conjugate Gradient and Steepest Descent Methods. Procedia Computer Science, Volume 51, Pages 276-285, Elsevier, 2015. https://doi.org/10.1016/j.procs.2015.05.241
↑ Шаблон:Cite journal

[1] Шаблон:Cite journal

[2] The conjugation constraint is an orthonormal-type constraint and hence the algorithm bears resemblance to Gram-Schmidt orthonormalization.

[saad1996iterative-3] Шаблон:Cite book

[4] Шаблон:Cite book

[5] Шаблон:Cite journal

[6] Шаблон:Cite journal

[7] Henricus Bouwmeester, Andrew Dougherty, Andrew V Knyazev. Nonsymmetric Preconditioning for Conjugate Gradient and Steepest Descent Methods. Procedia Computer Science, Volume 51, Pages 276-285, Elsevier, 2015. https://doi.org/10.1016/j.procs.2015.05.241

[8] Шаблон:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Метод спряженого градієнта

Зміст

Опис задачі, котру вирішують сполучені градієнти

Прямий метод

Як ітеративний метод

Отриманий алгоритм

Розрахунок альфа та бета-версії

Приклад коду в MATLAB / GNU Octave

Числовий приклад

Рішення

Властивості збіжності

Теорема конвергенції

Метод попередньо обумовленого градієнта

Метод гнучких попередньо обумовлених градієнтів

Приклад коду в MATLAB / GNU Octave

Місцево оптимальний метод найбільш стрімкого спуску

Виведення методу

Спряження градієнта на нормальних рівняннях

Див. також

Примітки

Література

Посилання

Навігаційне меню