Автоматичне диференціювання

Автоматичне диференціювання (Шаблон:Lang-en, AD) в математиці та символьних обчисленнях — спосіб обчислити похідну для функції, яка задана алгоритмом.

AD використовує той факт, що довільна функція в комп'ютерній програмі все одно буде обчислюватись за допомогою арифметичних дій (+, -, *, /) та елементарних функцій стандартних бібліотек (exp, log, sin, cos, і т.д.). Застосовуючи ланцюгове правило, похідна довільного порядку може бути обчислена з заданою точністю, за кількість операцій, що пропорційна кількості операцій для обчислення самої функції.

Автоматичне диференціювання не є:

Символьне диференціювання не завжди ефективне, оскільки деякі функції важко представити єдиним виразом, а чисельне диференціювання призводить до внесення похибок округлення та дискретизації. Обидва ці методи не є зручними для обчислення похідних високих порядків, оскільки похибка і складність значно зростає. Також обидва ці методи є повільними при обчисленні часткових похідних для функції багатьох аргументів. Автоматичне диференціювання вирішує всі ці проблеми, але вводить додаткову програмну залежність.

Ланцюгове правило вперед і назад

Основою AD є розклад диференціалів використовуючи ланцюгове правило. Застосувавши його до складеної функції Шаблон:Math отримаємо:

\frac{d y}{d x} = \frac{d y}{d w} \frac{d w}{d x}

Рух вперед

Зафіксувавши незалежну змінну, і застосовуючи ланцюгове правило до проміжної функції, отримаємо:

\frac{\partial y}{\partial x} = \frac{\partial y}{\partial w_{1}} \frac{\partial w_{1}}{\partial x} = \frac{\partial y}{\partial w_{1}} (\frac{\partial w_{1}}{\partial w_{2}} \frac{\partial w_{2}}{\partial x}) = \frac{\partial y}{\partial w_{1}} (\frac{\partial w_{1}}{\partial w_{2}} (\frac{\partial w_{2}}{\partial w_{3}} \frac{\partial w_{3}}{\partial x})) = \dots

Рух назад

Застосовуючи ланцюгове правило до початкової функції по нововведеній змінній отримаємо:

\frac{\partial y}{\partial x} = \frac{\partial y}{\partial w_{1}} \frac{\partial w_{1}}{\partial x} = (\frac{\partial y}{\partial w_{2}} \frac{\partial w_{2}}{\partial w_{1}}) \frac{\partial w_{1}}{\partial x} = ((\frac{\partial y}{\partial w_{3}} \frac{\partial w_{3}}{\partial w_{2}}) \frac{\partial w_{2}}{\partial w_{1}}) \frac{\partial w_{1}}{\partial x} = \dots

Рух вперед і назад є крайніми випадками застосування ланцюгового правила. Задача ж обчислення повного Якобіана з мінімальною кількістю операцій є NP-повною.

Використання дуальних чисел

Застосовуючи рух вперед, помістимо поряд із кожним числом, що використовується для обчислення функції, ще одне, яке міститиме значення похідної. Буквально, замінимо дійсне число $a$ на конструкцію $(a + a^{'} ε)$ , де $a^{'}$ є дійсним числом, а $ε$ є уявною одиницею, такою, що $ε^{2} = 0$ . Така конструкція називається дуальним числом.

Тоді для арифметичних операцій отримаємо:

(a + a^{'} ε) + (b + b^{'} ε) = (a + b) + (a^{'} + b^{'}) ε = (a + b) + (a + b)^{'} ε

(a + a^{'} ε) * (b + b^{'} ε) = a b + (a b^{'} + b a^{'}) ε = a b + (a b)^{'} ε

Тобто, уявна частина знову буде містити значення похідної від виразу в дійсній частині.

Запишемо дуальні числа без уявної одиниці у вигляді впорядкованої пари $⟨ a, a^{'} ⟩$ і використаємо ланцюгове правило для функції двох аргументів $g$ :

g (⟨ a, a^{'} ⟩, ⟨ b, b^{'} ⟩) = ⟨ g (a, b), g_{a} (a, b) a^{'} + g_{b} (a, b) b^{'} ⟩

де $g_{a}$ та $g_{b}$ є похідними $g$ по першому та другому аргументу відповідно.

Підставивши замість $g$ арифметичні операції та елементарні функції, отримаємо повний набір операцій над дуальними числами:

\begin{matrix} ⟨ a, a^{'} ⟩ + ⟨ b, b^{'} ⟩ & = ⟨ a + b, a^{'} + b^{'} ⟩ \\ ⟨ a, a^{'} ⟩ - ⟨ b, b^{'} ⟩ & = ⟨ a - b, a^{'} - b^{'} ⟩ \\ ⟨ a, a^{'} ⟩ * ⟨ b, b^{'} ⟩ & = ⟨ a b, a^{'} b + a b^{'} ⟩ \\ ⟨ a, a^{'} ⟩ / ⟨ b, b^{'} ⟩ & = ⟨ \frac{a}{b}, \frac{a^{'} b - a b^{'}}{b^{2}} ⟩ (b \neq 0) \\ \sin ⟨ a, a^{'} ⟩ & = ⟨ \sin (a), a^{'} \cos (a) ⟩ \\ \cos ⟨ a, a^{'} ⟩ & = ⟨ \cos (a), - a^{'} \sin (a) ⟩ \\ \exp ⟨ a, a^{'} ⟩ & = ⟨ \exp a, a^{'} \exp a ⟩ \\ \log ⟨ a, a^{'} ⟩ & = ⟨ \log (a), a^{'} / a ⟩ (a > 0) \\ {⟨ a, a^{'} ⟩}^{k} & = ⟨ a^{k}, k a^{k - 1} a^{'} ⟩ (a \neq 0) \\ | ⟨ a, a^{'} ⟩ | & = ⟨ | a |, a^{'} sign a ⟩ (a \neq 0) \end{matrix}

Реалізація

Реалізація автоматичного диференціювання можлива через:

автоматичне перетворення вихідного коду,
перевантаження функцій та операторів.

Джерела

www.autodiff.org An "entry site to everything you want to know about automatic differentiation" Шаблон:Webarchive

Шаблон:Перекласти

Шаблон:Диференційовні обчислення

Автоматичне диференціювання

Зміст

Ланцюгове правило вперед і назад

Використання дуальних чисел

Реалізація

Джерела

Навігаційне меню

Автоматичне диференціювання

Ланцюгове правило вперед і назад

Використання дуальних чисел

Реалізація

Джерела

Навігаційне меню

Пошук