Диференційна приватність
Диференційна приватність — це формальна теорія забезпечення конфіденційності персональних даних при публікації статистичних аналізів або моделей машинного навчання, обчислених на базі персональних даних. Диференційна приватність гарантує те, що персональні дані неможливо точно відновити з результатів обчислень за рахунок контрольованого додавання випадкових значень в процес обчислень.
Мотивація
Нехай існує довірена сторона, яка володіє масивом чутливих персональних даних (наприклад медичні записи, відомості щодо перегляду кіно або використання електронної пошти) і бажає надавати узагальнену статистичну інформацію про ці дані. Така система називається статистичною базою даних. Однак надання узагальненої статистичної інформації про дані може розкрити деяку інформацію щодо осіб. Дійсно, різноманітні ad-hoc підходи до анонімізації опублікованих записів були подолані, коли дослідники поєднували вміст двох або більше окремих баз даних. Диференційна приватність — це підхід для формалізації приватності у статистичних базах даних, запропонований для захисту від подібних методів деанонімізації.
Приз Netflix
Наприклад, у жовтні 2006 Netflix запропонував приз у 1 мільйон доларів США за покращення власної системи формування рекомендацій на 10 %. Netflix також випустив тренувальний масив даних для змагання розробників. При випуску цього масиву даних Netflix зазначив, що для захисту приватності користувачів уся персональна інформація, що ідентифікує користувачів, та усі ідентифікатори користувачів замінені на випадкові ідентифікатори.
Netflix — не єдиний портал оцінювання кінофільмів у мережі, існують і інші, зокрема IMDb. На IMDb користувачі можуть реєструватись і оцінювати фільми без анонімізації. Arvind Narayanan та Vitaly Shmatikov, дослідники у University of Texas at Austin, поєднали анонімізований масив даних Netflix з базою даних IMDb (використовуючи дату оцінювання) і частково деанонімізували масив даних Netflix, скомпрометувавши ідентичність деяких користувачів[1].
База даних медичних випадків Комісії з групового страхування штату Массачусетс
Latanya Sweeney з Carnegie Mellon University поєднала анонімізовану базу даних (у якій зберігалися дата народження, стать та поштовий індекс кожного пацієнта) з записами виборців, і змогла визначити медичний запис губернатора штату Массачусетс[2].
Метадані та бази даних мобільних операторів
De Montjoye та інші з MIT ввели поняття унікальності і показали, що 4 просторово-часових відмітки з приблизними моментами часу і просторовими координатами достатньо, щоб ідентифікувати 95 % з 1,5 млн людей з бази даних мобільних операторів[3]. Подальше дослідження показує, що ці обмеження мають місце навіть тоді, коли роздільна здатність набору даних є низькою, що означає, що навіть грубий або розмитий набір даних мобільних операторів та метадані забезпечують малу анонімність.
Огляд
У 2006, Cynthia Dwork визначила галузь диференційної приватності з використанням результатів роботи, початої у 2003. У цій роботі показано неможливість досягти семантичних цілей безпеки, що відносяться до роботи Tore Dalenius з 1970-х, і визначено нові методи для обмеження зростаючого ризику для персональних даних від їх включення до статистичної бази даних. Це дозволяє у багатьох випадках надати дуже точну статистику на підставі бази даних із забезпеченням високого рівня приватності.[4][5]
Принцип та ілюстрація
Диференційна приватність — це процес, який вносить випадковість у дані.
Простим прикладом, розробленим у соціальних науках,[6] є опитування осіб «Ви володієте атрибутом A?», за наступною процедурою:
- Підкинути монетку.
- Якщо випав аверс — відповісти чесно.
- Якщо випав герб — підкинути монетку ще раз і відповісти «Так», якщо випав аверс, або «Ні», якщо випав герб.
Приватність забезпечується через забезпечення відмовності щодо індивідуальних відповідей.
Хоча ці дані з багатьма відповідями є значимими, позитивні відповіді дали чверть осіб, які не мали атрибута A і три чверті осіб, які володіють атрибутом A.
Якщо p справжня частка осіб з A, тоді буде отримано (1/4)(1-p) + (3/4)p = (1/4) + p/2 позитивних відповідей. Звідси можна обчислити p.
PS: зокрема, якщо володіння атрибутом A є синонімом незаконних дій, відповідь «Так» не є зізнанням у злочині, оскільки існує ненульова імовірність хибнопозитивної відповіді «Так».
Формальне визначення та приклад застосування
Нехай позитивне дійсне число і є увипадковленим алгоритмом, який приймає набір даних на вході, що представляє дії довіреної сторони, яка розпоряджається даними. Нехай є образом відображення . Алгоритм є -диференційно приватним, якщо для всіх наборів даних та , які відрізняються у єдиному елементі (даних щодо однієї особи), для всіх підмножин з ,
де імовірність отримана з випадковості, яку використовує алгоритм.[6]
У відповідності до цього визначення диференційна приватність є умовою роботи механізму публікації (довіреної сторони, яка публікує інформацію щодо набору даних), а не самого набору даних. Інтуітивно це означає, що для двох довільних схожих наборів даних диференційно приватний алгоритм буде праціювати схоже для обох наборів даних. Визначення гарантує, що присутність або відсутність особи не значно вплине на фінальний результат.
Наприклад представимо, що ми маємо базу баних медичних записів де кожен запис є парою (Ім'я, X), де є булевою змінною, яка позначає наявність діабету у особи. Наприклад:
| Ім'я | Наявність діабету (X) |
|---|---|
| Рос | 1 |
| Моніка | 1 |
| Джої | 0 |
| Фібі | 0 |
| Чендлер | 1 |
Тепер припустимо, що зловимсний користувач (порушник) бажає визначити наявність діабету у Чендлера. Також припустимо, що порушник також знає у якому рядку бази даних розміщено запис Чендлера. Тепер припустимо, що порушнику дозволено використовуати тільки часткову форму запиту , яка повертає часткову суму перших рядків ствопчика у базі даних. Зазвичай, щоб визначити наявність діабету у Чендлера порушник виконує запити та , потім обчислює їх різницю. У цьому прикладі , а , тому різниця дорівнює 1. Це означає, що у полі рядка Чендлера знаходиться 1. Це приклад показує, як може бути скомпрометована інформація про особу навіть без точного запиту щодо особи.
Продовжуючи цей приклад, якщо ми сконструюємо базу даних заміною (Чендлер, 1) на (Чендлер, 0), то порушник матиме можливість відрізнити від обчисленням для кожного набору даних. Якщо порушнику знадобиться отримати значення використовуючи -диференційно приватний алгоритм, для достатньо малого , то він не зможе розрізнити два набори даних.
Чутливість
Нехай є позитивним цілим, є колекцією наборів даних, і є функцією. Чутливість[7] функції, позначена , визначається як
- де максимум по усім парам наборів даних та у , які відрізняються щонайменш у одному елементі і позначається нормою.
У прикладі медичної бази даних вище, якщо ми приймемо є функцією , тоді чутливість функції дорівнює одиниці, оскільки зміна одного запису у базі даних призводить до зміни значення функції на нуль або одиницю.
Існують методи (описані нижче), використання яких дозволяє створювати диференційно приватний алгоритм для функцій з низькою чутливістю.
Компроміс між корисністю та приватністю
Компроміс між точністю статистики, отриманої із дотриманням приватності, і приватністю описується параметром ε.[8][9][10][11]
Інші нотації диференційної приватності
Для деяких застосувань властивість диференційної приватності є занадто суворою, тому запропоновані слабші версії властивостей приватності. Вони включають (ε, δ)-диференційну приватність,[12] рандомізовану диференційну приватність,[13] і приватність з метрикою.[14]
Диференційно приватні механізми
Оскільки диференційна приватність є імовірнісною концепцією, будь-який диференційно приватний механізм обов'язково є рандомізованим. Деякі з них, як механізм Лапласа, описаний нижче, покладаються на додавання контрольованого шуму до функції, яку потрібно обчислити. Інші, як Шаблон:Нп[15] використовують післявибірку[16] замість залежних від галузі використання розподілів.
Механізм Лапласа
Багато диференційно приватних методів додають контрольований шум до функцій з низькою чутливістю.[7] Механізм Лапласа додає шум Лапласа (шум з розподілом Лапласа), який може бути виражений функцією щільності імовірності , яка має математичне сподівання, що дорівнює нулю, і стандартне відхилення ). У нашому випадку визначено вихідну функцію від як функцію з дійсними значеннями як де and є оригінальною функцією з дійсними значеннями, яку планувалося виконати над базою даних. Звідси може бути представлена як неперервну випадкову змінну, де
де щонайменше . Можна представити як фактор приватності . Таким чином відповідає визначенню диференційно приватного механізму. Якщо застосувати цю концепцію до нашого прикладу з хворими на діабет, тоді це слідує з факту, що як -диференційно приватний алгоритм повинен мати . Хоча було використано шум Лапласа, можуть бути використані шуми з іншим розподілом (наприклад нормальним розподілом), але для цього потрібне деяке послаблення визначення диференційної приватності.[2]
Поєднуваність
Послідовне поєднання
Якщо запитати ε-диверенційно приватний механізм разів, і рандомізація механізму є незалежною для кожного запиту, тоді результат буде -диференційно приватним. У загальному випадку, якщо наявні незалежних механізмів: , чиї гарантії приватності є диференційно приватними, відповідно, тоді будь-яка функція від: є -диференційно приватною.[17]
Паралельне поєднання
Більш того, якщо попередні механізми обчислені над підмножинами, що не перетинаються, приватної бази даних, тоді функція є -диференційно приватною.[17]
Групова приватність
У загальному випадку ε-диверенційна приватність створена для захисту приватності між базами даних, які відрізняються лише у одному рядку. Це означає, що жоден порушник із довільною допоміжною інформацією не може знати, чи один конкретний учасник надав свою інформацію. Тим не менше це також може бути поширене для потреби захисту баз даних, які відрізняються у рядках, де порушник із довільною допоміжною інформацією має можливість знати, що часткових учасників надали інформацію. Це може бути досягнуто тому що у випадку коли значень змінюються, ймовірність розширення обмежена замість ,[2] тобто для D1 та D2, які відрізняються у значеннях:
Таким чином встановлення ε замість досягає бажаного результату (захисту значень). Іншими словами, замість ε-диференційно приватного захисту кожного значення, тепер група з значень є захищеною з параметром ε-диференційної приватності (і кожне значення є захищеним з параметром -диференційної приватності).
Стабільні перетворення
Перетворення є -стабільним, якщо відстань Геммінга між та є не більше -разів відстані Геммінга між та для двох довільних баз даних . Теорема 2 у[17] стверджує, що якщо існує механізм такий, що є -диверенційно приватним, тоді складений механізм є -диференційно приватним.
Це може бути узагальнене для групової приватності, оскільки розмір групи може бути розглянуте як відстань Геммінга між та (де містить групу та не містить). У цьому випадку є -диференційно приватним.
Використання
Деякі використання, відомі на сьогодні:
- Бюро перепису населення США, для демонстрації шаблонів взаємодії,[18]
- Google RAPPOR, для телеметрії та вивчення статистики щодо небажаного програмного забезпечення, яке перехоплює налаштування користувача[19] (RAPPOR's open-source implementation Шаблон:Webarchive),
- Google, для поширення історичної статистики трафіку,[20]
- 13 червня 2016 Apple оголосила про намір використовувати диференційну приватність у iOS 10 щоб покращити власну технологію персонального помічника,[21]
- Виконані деякі початкові дослідження щодо практичної реалізації диференційної приватності у моделях дата-майнингу.[22]
Примітки
Посилання
- Differential Privacy Шаблон:Webarchive by Cynthia Dwork, ICALP July 2006.
- The Algorithmic Foundations of Differential Privacy Шаблон:Webarchive by Cynthia Dwork and Aaron Roth, 2014.
- Differential Privacy: A Survey of Results Шаблон:Webarchive by Cynthia Dwork, Microsoft Research, April 2008
- Privacy of Dynamic Data: Continual Observation and Pan Privacy Шаблон:Webarchive by Moni Naor, Institute for Advanced Study, November 2009
- Tutorial on Differential Privacy Шаблон:Webarchive by Katrina Ligett, California Institute of Technology, December 2013
- A Practical Beginner's Guide To Differential Privacy Шаблон:Webarchive by Christine Task, Purdue University, April 2012
- Private Map Maker v0.2 Шаблон:Webarchive on the Common Data Project blog
- Learning Statistics with Privacy, aided by the Flip of a Coin Шаблон:Webarchive by Úlfar Erlingsson, Google Research Blog, October 2014
- ↑ Шаблон:Cite conference
- ↑ 2,0 2,1 2,2 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюDwork, ICALP 2006не вказано текст - ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite journal
- ↑ Шаблон:Cite book
- ↑ 6,0 6,1 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюDPBookне вказано текст - ↑ 7,0 7,1 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюDMNS06не вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюGhosh, Roughgarden, Sundararajan 2009не вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюBrenner, Nissim 2010не вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюCMFDX11vldbне вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюMCFY11kddне вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюDKMMN06не вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюHRW11не вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюCABP13не вказано текст - ↑ Шаблон:Cite web
- ↑ Шаблон:Cite web
- ↑ 17,0 17,1 17,2 Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюPINQне вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюRAPPORне вказано текст - ↑ Помилка цитування: Неправильний виклик тегу
<ref>: для виносок під назвоюElandне вказано текст - ↑ Шаблон:Cite web
- ↑ Шаблон:Cite journal