Нерівність Єнсена

Матеріал з testwiki
Перейти до навігації Перейти до пошуку

Нерівність Єнсена — зв'язує визначений інтеграл опуклої функції та значення цієї функції від інтеграла. Вона була доведена данським математиком Йоганом Єнсеном у 1906 році.[1]

Нерівність Єнсена узагальнює твердження, що січна лінія опуклої функції лежить над її графіком.

Файл:Convex 01.ogv

Враховуючи свою загальність, нерівність проявляється у багатьох формах залежно від контексту, деякі з яких представлені нижче. У найпростішому випадку нерівність стверджує, що значення опуклого перетворення є меншим або дорівнює значенню отриманого після опуклого перетворення; це простий наслідок того, що обернене твердження вірне щодо перетворень увігнутих функцій.

Нерівність Єнсена узагальнює твердження, що січна опуклої функції лежить над графіком функції (нерівність Єнсена для двох точок): січна лінія утворюється ваговими середніми значеннями опуклої функції (для t[0,1]),

tf(x1)+(1t)f(x2),

у той час як графік функції є опуклою функцією зважених середніх значень

f(tx1+(1t)x2).

Отже, нерівність Єнсена має вигляд

f(tx1+(1t)x2)tf(x1)+(1t)f(x2).

У контексті теорії ймовірності нерівність як правило подається у наступному вигляді: якщо Xвипадкова величина, а φ — опукла функція, то

φ(E[X])E[φ(X)].

Різниця між двома частинами нерівності,

E[φ(X)]φ(E[X])

називається проміжком Єнсена [2].

Формулювання

Класична форма нерівності Єнсена включає декілька чисел і вагових коефіцієнтів. Нерівність можна сформулювати у досить загальному вигляді, використовуючи або мову теорії міри, або (що еквівалентно) теорії ймовірності. У термінах теорії ймовірності нерівність можна узагальнити далі.

Дискретний випадок

Для дійсної опуклої функції φ, та чисел x1,x2,,xn з її області визначення та додатних чисел ai, справджується:

φ(aixiai)aiφ(xi)ai;

нерівність міняє знак, коли φ — угнута функція:

φ(aixiai)aiφ(xi)ai.

Рівність виконується тоді і тільки тоді, коли x1=x2==xn або φ є лінійною на її області визначення, що містить x1,x2,,xn. Частковим випадком є

φ(xin)φ(xi)n.

Позначивши λi=aii=1nai отримаємо еквівалентне формулювання:

f(i=1nλixi)i=1nλif(xi),

де

λ1+λ2++λn=1.

За допомогою нерівності Єнсена в даному вигляді можна довести:

Інтегральне та ймовірнісне формулювання

Нехай (Ω,A,μ)ймовірнісний простір, тобто μ(Ω)=1. Якщо g — дійснозначна функція, яка є μінтегровною, φопукла функція на дійсній прямій, тоді [3]

φ(Ωgdμ)Ωφgdμ.

У аналізі функцій однієї змінної може знадобитися оцінка для

φ(abf(x)dx),

де a,b та f:[a,b] — невід'ємна функція, яка інтегровна за Лебегом. У цьому випадку міра Лебега відрізка [a,b] не обов'язково має дорівнювати одиниці. Однак, за допомогою інтегрування з використанням заміни змінних, інтервал може бути відмасштабований так, що міра дорівнюватиме одиниці. Тоді можна застосувати нерівність Єнсена і отримаємо[4]

φ(1baabf(x)dx)1baabφ(f(x))dx.

Аналогічний результат можна сформулювати у термінах теорії ймовірності за допомогою простої зміни позначень. Нехай (Ω,𝔉,P)ймовірністний простір, Xінтегровна дійснозначна випадкова величина, а φопукла функція. Тоді[5]

φ(E[X])E[φ(X)].

У цьому ймовірнісному формулюванні міра μ визначається як ймовірність P, інтеграл відносно μ як математичне сподівання E, а функція g як випадкова величина X.

Зауважимо, що рівність буде мати місце тоді і лише тоді, коли φ є лінійною функцією на деякій множині A такій, що P(XA)=1 (це випливає з наведеного нижче інтегрального доведення).

Загальна нерівність в ймовірнісному формулюванні

Більш загально, нехай T — дійсний топологічний векторний простір, XT-значна інтегровна випадкова величина. У цих загальних умовах інтегровний означає, що в просторі T існує елемент E[X], такий, що для будь-якого елемента z із спряженого простору до простору T: E|z,X|</ та z,E[X]=E[z,X]. Тоді для будь-якої вимірної опуклої функції φ та під-σ-алгебри 𝔊 у σ-алгебрі 𝔉:

φ(E[X𝔊])E[φ(X)𝔊].

Тут E[𝔊] є умовним математичним сподіванням відносно σ-алгебри 𝔊. Це загальне твердження зводиться до попередніх, якщо топологічний векторний простір T є дійсною віссю, а 𝔊 є тривіальною σ-алгеброю {,Ω} (де порожня множина}, а Ωпростір елементарних подій)[6].

Уточнена та узагальнена форма

Нехай X — одновимірна випадкова величина із математичним сподіванням μ та дисперсією σ20. Нехай φ(x) — двічі диференційована функція, визначимо функцію

h(x)φ(x)φ(μ)(xμ)2φ(μ)xμ.

Тоді[7]

σ2infφ(x)2σ2infh(x)E[φ(X)]φ(E[X])σ2suph(x)σ2supφ(x)2.

Зокрема, якщо φ(x) — опукла функція, то φ(x)0 і стандартний вигляд нерівності Єнсена безпосередньо випливає, якщо додатково вважати функцію φ(x) двічі диференційованою.

Доведення

Графічне доведення нерівності Єнсена для ймовірнісного випадку. Пунктирна крива вздовж осі X є гіпотетичним розподілом X, тоді як пунктирна крива вздовж осі Y є відповідним розподілом значень Y. Зауважимо, що опукле відображення Y(X) дедалі більше ``розтягує розподіл для збільшення значень X.
Доведення нерівності Єнсена для n змінних без слів. Без втрати загальності вважаємо, що сума додатних вагових коефіцієнтів дорівнює 1. Звідси випливає, що вагома точка знаходиться в опуклій оболонці вихідних точок, яка лежить над самою функцією за означенням опуклості. Звідси випливає відповідне твердження.[8]

Нерівність Єнсена можна довести декількома способами, і нижче буде запропоновано три різні доведення, що відповідають вищезазначеним твердженням. Однак перед тим як приступати до цих математичних доведень варто проаналізувати інтуїтивно зрозумілий графічний аргумент на основі ймовірнісного випадку, де X є дійсним числом (див. рисунок). Припускаючи гіпотетичний розподіл значень X, можна одразу визначити положення математичного сподівання E[X] та його образу φ(E[X]) на графіку. Враховуючи, що для опуклих відображень Y=φ(X) відповідний розподіл значень Y є зростаючим і розтягується при зростаючих значеннях X, легко зрозуміти, що розподіл Y є ширшим в інтервалі, що відповідає X>X0 і вужчим при X<X0 для будь-якого X0. Зокрема, це також справедливо для X0=E[X].

Отже, на цьому рисунку математичне сподівання для Y завжди зміщуватиметься вгору по відношенню до положення φ(E[X]). А налогічне міркування справедливе, якщо розподіл X охоплює спадну частину опуклої функції, або одночасно спадну і зростаючу його частини. Це доводить нерівність, тобто

φ(E[X])E[φ(X)]=E[Y],

яка перетворюється у рівність, якщо φ(X) не є строго опуклою функцією, наприклад, якщо вона є прямою, або, якщо X має вироджений розподіл (тобто є константою).

Наведені нижче доведення формалізують це інтуїтивне поняття.

Доведення 1 (дискретна форма)

Якщо λ1 і λ2 — два довільні невід'ємні дійсні числа такі, що λ1+λ2=1, то з опуклості φ випливає

x1,x2:φ(λ1x1+λ2x2)λ1φ(x1)+λ2φ(x2).

Цю нерівність можна легко узагальнити: якщо λ1,,λn — невід'ємні дійсні числа такі, що λ1++λn=1, тоді

φ(λ1x1+λ2x2++λnxn)λ1φ(x1)+λ2φ(x2)++λnφ(xn)

для будь-яких x1,,xn. Цю скінченну форму нерівності Єнсена можна довести за допомогою методу математичної індукції: за припущення опуклості твердження справедливе для n=2. Припустимо, що воно справедливе і для деякого n, потрібно довести нерівність для n+1. Щонайменше одне з λi є додатним і строго меншим 1, нехай λ1; тоді з означення опуклості:

φ(i=1n+1λixi)=φ(λ1x1+(1λ1)i=2n+1λi1λ1xi)λ1φ(x1)+(1λ1)φ(i=2n+1λi1λ1xi).

Оскільки

i=2n+1λi1λ1=1,

то можна застосувати індукційні гіпотези до останнього члена в попередній формулі для того, щоб отримати результат, а саме кінцеву форму нерівності Єнсена.

Для того, щоб отримати загальну нерівність з цієї кінцевої форми, необхідно використовувати аргумент щільності. Скінченну форму можна переписати як

φ(xdμn(x))φ(x)dμn(x),

де μn — міра, що задається довільною опуклою комбінацією дельта-функцій Дірака:

μn=i=1nλiδxi.

Оскільки опуклі функції є неперервними, й опуклі комбінації дельта-функцій Дірака є слабко щільними в множині ймовірнісних мір (що можна легко перевірити), то загальне твердження отримується легко за допомогою граничного переходу.

Доведення 2 (інтегральне формулювання)

Нехай g — дійснозначна μ-інтегровна функція у ймовірностному просторі Ω, а φ — опукла дійснозначна функція. Оскільки φ опукла, то для кожного дійсного значення x маємо непусту множину субдиференціалів, які можна розглядати як лінії, що дотикаються до графіка функції φ в точці x, але які знаходяться над графіком функції φ або нижче нього у всіх точках (опорні лінії графіка).

Тепер, якщо визначимо

x0:=Ωgdμ,

то внаслідок існування субдиференціалів для опуклих функцій можемо вибрати a та b такі, що

ax+bφ(x)

для всіх дійсних x і ax0+b=φ(x0). Але тоді маємо, що φg(x)ag(x)+b для всіх x. Оскільки маємо ймовірнісну міру, то інтеграл є монотонним з μ(Ω)=1, так що

ΩφgdμΩ(ag+b)dμ==aΩgdμ+bΩdμ==ax0+b=φ(x0)=φ(Ωgdμ),

що й треба було довести.

Зауваження

Якщо функція f(x) угнута (опукла догори), то знак в нерівності змінюється на протилежний.

Примітки

  1. Шаблон:Cite journal
  2. Шаблон:Cite journal
  3. p. 25 of Шаблон:Cite book
  4. Niculescu, Constantin P. "Integral inequalities", P. 12.
  5. p. 29 of Шаблон:Cite book
  6. Attention: In this generality additional assumptions on the convex function and/ or the topological vector space are needed, see Example (1.3) on p. 53 in Шаблон:Cite journal
  7. Шаблон:Cite journal
  8. Шаблон:Cite book

Джерела

Шаблон:Середні значення Шаблон:Математичний аналіз