Швидкий обернений квадратний корінь

Для обчислення освітлення і віддзеркалення (показано у шутері від першої особи *OpenArena*) використовуються швидкий обернений квадратний корінь для обчислення кутів падіння і відбиття.

Швидкий обернений квадратний корінь (іноді згадуваний як Fast InvSqrt() або за шістнадцятковою сталою 0x5f3759df) — це метод обчислення $f (x) = \frac{1}{\sqrt{x}}$ , оберненого квадратного кореня для 32-бітного числа у форматі чисел з рухомою комою IEEE 754. Алгоритм ймовірно розробили у Silicon Graphics на початку 1990-х, і реалізація з'явилась 1999 року в сирцевому коді Quake III Arena, але метод не з'являвся на публічних форумах як-от Usenet до 2002 чи 2003.^[1] (Існує обговорення на китайському форумі розробників CSDN у 2000.^[2]) На той час, основна перевага алгоритму полягала у використанні замість обчислювально дорогих операцій над числами з рухомою комою операцій над цілими числами. Обернений квадратний корінь використовують для обчислення кутів падіння і відбивання для освітлення і шейдинга в комп'ютерній графіці.

Алгоритм приймає 32-бітне число з рухомою комою і зберігає його половинне значення для подальшого використання. Тоді, трактуючи числа з рухомою комою як цілі, виконується логічний зсув вправо на один біт і результат віднімається від магічного числа 0x5f3759df. Це буде першим наближенням до оберненого квадратного кореня вхідного числа. Знов трактуючи біти як число з рухомою комою проводиться одна ітерація методу Ньютона, щоб результат був точнішим. Так обчислення наближеного значення оберненого квадратного кореня для числа з рухомою комою відбувається приблизно вчетверо швидше ніж із використанням ділення чисел з рухомою комою.

Огляд коду

Наступний код є реалізацією оберненого квадратного кореня з Quake III Arena, з нього видалені директиви препроцесора, але залишені оригінальні коментарі:

float Q_rsqrt( float number )
{
	long i;
	float x2, y;
	const float threehalfs = 1.5F;

	x2 = number * 0.5F;
	y  = number;
	i  = * ( long * ) &y;                       // злий хак із рухомою комою на бітовому рівні
	i  = 0x5f3759df - ( i >> 1 );               // що за чортівня? 
	y  = * ( float * ) &i;
	y  = y * ( threehalfs - ( x2 * y * y ) );   // 1-ша ітерація
//	y  = y * ( threehalfs - ( x2 * y * y ) );   // 2-га ітерація, це можна видалити

	return y;
}

Для визначення оберненого квадратного кореня визначається наближення для $x^{- 1 / 2}$ , тоді за допомогою чисельного методу це наближення переглядається, щоб отримати прийнятну похибку у кінцевому результаті. Звичайні програмні методи на початку 1990-х отримували перше наближення із таблиці пошуку.Шаблон:Sfn Цей шматок коду виявився швидшим ніж використання таблиці пошуку і приблизно в чотири рази швидший ніж звичайне ділення чисел з рухомою комою.Шаблон:Sfn Хоча деяка втрата точності і відбувалася, але її перекривало значне покращення швидкодії.Шаблон:Sfn Алгоритм був розроблений для специфікації Шаблон:Li 32 бітних чисел з рухомою комою, але подальші дослідження Кріса Ломонта і Чарльза Макінері показали, що його можна реалізувати і для інших специфікацій.

Переваги у швидкості пропоновані швидким оберненим квадратним коренем з'явились завдяки трактуванню довгого слова^{[note 1]}, що містить число з рухомою комою як цілого і віднімання його від специфічної сталої, 0x5f3759df. Ціль цієї сталої не одразу очевидна для читача коду, отже, як і багато інших сталих знайдених у коді, її називають магічним числом.^[1]Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn Це цілочисельне віднімання і бітовий зсув дають довге слово, яке знов трактується як число з рухомою комою і є грубим наближенням оберненого квадратного кореня вхідного числа. Одна ітерація методу Ньютона виконується для отримання більшої точності, і код завершується. Алгоритм генерує прийнятно точні результати використовуючи унікальне перше наближення для методу Ньютона; однак, він набагато повільніший ніж використання SSE інструкції rsqrtss на x86 процесорах також випущеної у 1999.^[3]

Робочий приклад

Як приклад, розглянемо число Шаблон:Math, для якого ми хочемо обчислити Шаблон:Math. Перші кроки алгоритму проілюстровані нижче:

0011_1110_0010_0000_0000_0000_0000_0000  Вигляд x та i на бітовому рівні
0001_1111_0001_0000_0000_0000_0000_0000  Зсув вправо на одну позицію: (i >> 1)
0101_1111_0011_0111_0101_1001_1101_1111  Магічне число 0x5f3759df
0100_0000_0010_0111_0101_1001_1101_1111  Результат 0x5f3759df — (i >> 1)

Використовуючи IEEE 32 бітове представлення:

0_01111100_01000000000000000000000  1.25 * 2^-3
0_00111110_00100000000000000000000  1.125 * 2^-65
0_10111110_01101110101100111011111  1.432430... * 2^+63
0_10000000_01001110101100111011111  1.307430... * 2^+1

Інтерпретування останнього бітового представлення як числа з рухомою комою дає наближення Шаблон:Math, яке має похибку близько 3.4%. Після однієї ітерації метода Ньютона, кінцевим результатом є Шаблон:Math, і помилка становить лише 0.17%.

Перебіг алгоритму

Алгоритм обчислює Шаблон:Math виконуючи такі кроки:

Інтерпретує аргумент Шаблон:Math як ціле, як спосіб приблизного обчислення Шаблон:Math
Використовує це наближення для обчислення наближення Шаблон:Math
Знов інтерпретує як число з рухомою комою, як спосіб для обчислення наближення Шаблон:Math
Уточнює наближення використовуючи метод Ньютона.

Представлення чисел з рухомою комою

Шаблон:Main

Оскільки алгоритм сильно покладається на представлення чисел одинарної точності з рухомою комою на бітовому рівні, короткий огляд цього представлення наведений тут. Для того, щоб закодувати ненульове дійсне число Шаблон:Math як число із рухомою комою одинарної точності, перший крок полягає в записуванні Шаблон:Math як нормалізованого двійкового числа:

\begin{matrix} x & = \pm 1 . b_{1} b_{2} b_{3} \dots \times 2^{e_{x}} \\ = \pm 2^{e_{x}} (1 + m_{x}) \end{matrix}

де показник Шаблон:Math є цілим, Шаблон:Math, і Шаблон:Math це двійкове представлення мантиси Шаблон:Math. Варто зазначити, що оскільки єдиний біт перед комою у мантисі завжди 1, то немає потреби його зберігати. З цієї форми маємо три беззнакові цілі числа:

Шаблон:Math, знаковий біт, це 0 якщо Шаблон:Math, і 1 якщо Шаблон:Math (1 біт)
Шаблон:Math — це зміщена експонента, де Шаблон:Math — зсув^{[note 2]} (8 бітів)
Шаблон:Math, де Шаблон:Math^{[note 3]} (23 bits)

Ці поля пакуються зліва направо у 32 бітовий контейнер.

Як приклад розглянемо число Шаблон:Math. Нормалізація Шаблон:Math дає:

x = + 2^{- 3} (1 + 0.25)

і отже, три беззнакові цілочисельні поля такі:

ці поля пакуються як показано нижче:

Інтерпретування цілим як приблизний логарифм

Якби комусь довелось порахувати Шаблон:Math без комп'ютера чи калькулятора, то йому б стала в пригоді таблиця логарифмів разом із тотожністю Шаблон:Math, яка дійсна для кожної основи Шаблон:Math. Швидкий обернений квадратний корінь базується на цій тотожності і на факті, що інтерпретація float32 у ціле число дає грубе наближення цього логарифма. Ось як:

Якщо Шаблон:Math це додатне нормальне число:

x = 2^{e_{x}} (1 + m_{x})

тоді ми маємо

\log_{2} (x) = e_{x} + \log_{2} (1 + m_{x})

але оскільки Шаблон:Math, логарифм праворуч можна приблизно порахувати через Шаблон:Sfn

\log_{2} (1 + m_{x}) \approx m_{x} + σ

де Шаблон:Math — це вільний параметр використовуваний для налаштування наближення. Наприклад, Шаблон:Math дає точний результат на обох кінцях інтервалу, тоді як Шаблон:Math дає оптимальне наближення (найкраще у сенсі рівномірної норми похибки).

Отже, ми маємо наближення

\log_{2} (x) \approx e_{x} + m_{x} + σ .

З іншого боку, інтерпретування бітового представлення Шаблон:Math як цілого дає^{[note 4]}

\begin{matrix} I_{x} & = E_{x} L + M_{x} \\ = L (e_{x} + B + m_{x}) \\ = L (e_{x} + m_{x} + σ + B - σ) \\ \approx L \log_{2} (x) + L (B - σ) . \end{matrix}

Тоді виявляється, що Шаблон:Math є масштабованим і зсунутим кусково-лінійним наближенням Шаблон:Math, як показано на зображенні праворуч. Інакше кажучі, Шаблон:Math наближується за допомогою

\log_{2} (x) \approx \frac{I_{x}}{L} - (B - σ) .

Перше наближення результату

Обчислення Шаблон:Math базується на тотожності

\log_{2} (y) = - \frac{1}{2} \log_{2} (x)

Використовуючи наближення логарифму наведене вище, застосоване до обох Шаблон:Math і Шаблон:Math, рівняння дає:

\frac{I_{y}}{L} - (B - σ) \approx - \frac{1}{2} (\frac{I_{x}}{L} - (B - σ))

З цього, наближення для Шаблон:Math таке:

I_{y} \approx \frac{3}{2} L (B - σ) - \frac{1}{2} I_{x}

що записано в коді як

i  = 0x5f3759df - ( i >> 1 );

Перший доданок вище це магічне число

\frac{3}{2} L (B - σ) = 0x5f3759df

з якого можна зробити висновок, що Шаблон:Math. Другий доданок, Шаблон:Math, обрахований через бітовий зсув Шаблон:Math на одну позицію праворуч.^[4]

Метод Ньютона

Шаблон:Main Після використання цих цілочисельних операцій, алгоритм знов розглядає довге слово як число з рухомою комою (y = *(float*)&i;) і виконує операцію множення із рухомою комою (y = y*(1.5f - xhalf*y*y);). Ця операція представляє одну ітерацію методу Ньютона. Тут ми маємо:

y = \frac{1}{\sqrt{x}}

— це обернений квадратний корінь, або, як функція від y,

f (y) = \frac{1}{y^{2}} - x = 0

.

As

y_{n + 1} = y_{n} - \frac{f (y_{n})}{f^{'} (y_{n})}

представляє загальне вираження методу Ньютона із

y_{n}

як перше наближення,

y_{n + 1} = \frac{y_{n} (3 - x y_{n}^{2})}{2},

де

f (y) = \frac{1}{y^{2}} - x

і

f^{'} (y) = \frac{- 2}{y^{3}}

.

Тому y = y*(1.5f - xhalf*y*y); є тим самим, що

y_{n + 1} = y_{n} (1.5 - \frac{x y_{n}^{2}}{2}) = \frac{y_{n} (3 - x y_{n}^{2})}{2}

Виноски

↑ Використання типа long зменшує переносність цього коду на сучасні системи. Для того, щоб код виконався правильно, sizeof(long) повинен бути 4 байти, інакше можна отримати від'ємний результат. На багатьох сучасних 64-бітних системах, sizeof(long) становить 8 байтів.
↑ Шаблон:Math має бути в діапазоні Шаблон:Math для Шаблон:Math, щоб бути представна як нормальне число.
↑ Єдиними числами представними точно як числа з рухомою комою це ті у яких Шаблон:Math є цілим. Інші числа можна представити лише приблизно, округлюючи їх до найближчого цілого.
↑ Шаблон:Math оскільки Шаблон:Math.

Примітки

Шаблон:Reflist

Документи

↑ ^1,0 ^1,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Beyond3D не вказано текст
↑ Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою csdn не вказано текст
↑ Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою ruskin не вказано текст
↑ Hennessey & Patterson 1998, p. 305.

[3] Використання типа long зменшує переносність цього коду на сучасні системи. Для того, щоб код виконався правильно, sizeof(long) повинен бути 4 байти, інакше можна отримати від'ємний результат. На багатьох сучасних 64-бітних системах, sizeof(long) становить 8 байтів.

[5] Шаблон:Math має бути в діапазоні Шаблон:Math для Шаблон:Math, щоб бути представна як нормальне число.

[6] Єдиними числами представними точно як числа з рухомою комою це ті у яких Шаблон:Math є цілим. Інші числа можна представити лише приблизно, округлюючи їх до найближчого цілого.

[7] Шаблон:Math оскільки Шаблон:Math.

[Beyond3D-1] 1,0 ^1,1 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою Beyond3D не вказано текст

[csdn-2] Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою csdn не вказано текст

[ruskin-4] Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою ruskin не вказано текст

[8] Hennessey & Patterson 1998, p. 305.

[1]

[2]

[note 1]

[3]

[note 2]

[note 3]

[note 4]

[4]

Швидкий обернений квадратний корінь

Зміст

Огляд коду

Робочий приклад

Перебіг алгоритму

Представлення чисел з рухомою комою

Інтерпретування цілим як приблизний логарифм

Перше наближення результату

Метод Ньютона

Виноски

Примітки

Документи

Навігаційне меню

Швидкий обернений квадратний корінь

Огляд коду

Робочий приклад

Перебіг алгоритму

Представлення чисел з рухомою комою

Інтерпретування цілим як приблизний логарифм

Перше наближення результату

Метод Ньютона

Виноски

Примітки

Документи

Навігаційне меню

Пошук