Деидентификация

Материал из wikixw
Перейти к навигации Перейти к поиску

Деидентификация - это процесс, используемый для предотвращения раскрытия чьей-либо личной личности. Например, данные, полученные в ходе исследования человеческого субъекта, могут быть деидентифицированы для сохранения конфиденциальности участников исследования .

Применительно к метаданным или общим данным об идентификации этот процесс также известен как обезличивание данных . Распространенные стратегии включают удаление или маскировку личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаций, таких как дата рождения. Обратный процесс использования деидентифицированных данных для идентификации физических лиц известен как повторная идентификация данных . Успешная повторная идентификация поставьте под сомнение эффективность деидентификации. Систематический обзор четырнадцати отдельных повторных идентификационных атак выявил "высокую частоту повторной идентификации [ ... ], в которой преобладают маломасштабные исследования по данным, которые не были деидентифицированы в соответствии с существующими стандартами."

Деидентификация принимается в качестве одного из основных подходов к защите конфиденциальности данных . Он широко используется в области коммуникаций, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных, интернета, социальных сетей и аудио–видеонаблюдения.

Хотя человека обычно можно легко идентифицировать по фотографии, сделанной непосредственно с ним, задача идентификации его на основе ограниченных данных сложнее, но иногда это возможно.

Примеры[править]

При проектировании съемки[править]

Для сбора информации о какой-либо группе людей проводится обследование, например перепись населения. Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются построить опрос таким образом, чтобы люди могли участвовать в опросе, и когда результат будет опубликован, не будет возможно сопоставить индивидуальный ответ любого участника с любыми данными, опубликованными в результате.

Перед использованием информации[править]

Когда сайт онлайн-покупок хочет узнать предпочтения своих пользователей и привычки покупок, он решает извлечь данные клиентов из своей базы данных и сделать анализ на них. Информация о персональных данных, включая персональные идентификаторы, собиралась непосредственно при создании клиентами своих учетных записей. Веб-сайт должен предварительно обрабатывать данные методами деидентификации перед анализом записей данных, чтобы избежать нарушения конфиденциальности клиентов.

Анонимизация[править]

Под анонимизацией понимается необратимое отделение набора данных от личности автора данных в исследовании с целью предотвращения любой последующей повторной идентификации, даже организаторами исследования при любых условиях. Деидентификация также представляет собой отделение набора данных от личности носителя данных, но может включать сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. в технологическом сообществе идет дискуссия о том, следует ли когда-либо считать деидентифицированными данные, которые могут быть повторно связаны, даже доверенной стороной.

Методы[править]

Распространенными стратегиями деидентификации являются маскировка персональных идентификаторов и генерализация квазиидентификаций . Псевдонимизация является основным методом, используемым для маскировки персональных идентификаторов из записей данных, а k-анонимизация обычно используется для обобщения квазиидентификаций .

Псевдонимизация[править]

Псевдонимизация осуществляется путем замены реальных имен временным идентификатором, он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать индивидуальные записи с течением времени, даже если запись будет обновляться. Тем не менее, это не может помешать индивидууму быть идентифицированным, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют индивидуума.

k-анонимизация[править]

K-анонимизация определяет атрибуты, которые косвенно указывают на индивидуальность индивида как квазиидентификаторы (Qi) и имеют дело с данными, делая, по крайней мере, k индивидов имеют одинаковую комбинацию значений QI. значения QI обрабатываются в соответствии с определенными стандартами. Например, K-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения без изменений. Новая комбинация значений QI предотвращает идентификацию человека, а также позволяет избежать уничтожения записей данных.

Приложения[править]

Исследования в области деидентификации проводятся главным образом для защиты медицинской информации . некоторые библиотеки приняли методы, используемые в отрасли здравоохранения, чтобы сохранить конфиденциальность своих читателей.

В больших данных деидентификация широко применяется отдельными лицами и организациями.[6] С развитием социальных сетей, электронной коммерции и больших данных, деидентификация иногда требуется и часто используется для обеспечения конфиденциальности данных, когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для собственного личного использования.

В умных городах для защиты частной жизни жителей , работников и посетителей может потребоваться деидентификация. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики могут собирать информацию без согласия.

Ограничения[править]

Всякий раз, когда человек участвует в генетических исследованиях, пожертвование биологического образца часто приводит к созданию большого количества персонализированных данных. Такие данные однозначно трудно идентифицировать.

Анонимизация генетических данных особенно затруднена из-за огромного количества генотипических информация в биоспецименах, связи, которые часто имеют образцы с историей болезни, и появление современных инструментов биоинформатики для интеллектуального анализа данных . было продемонстрировано, что данные для отдельных лиц в совокупных коллекциях наборов генотипических данных могут быть привязаны к идентичности образцов доноров.

Некоторые исследователи предположили, что неразумно когда-либо обещать участникам генетических исследований, что они могут сохранить свою анонимность, но вместо этого такие участники должны быть обучены ограничениям использования кодированных идентификаторов в процессе деидентификации.

Законы о деидентификации в Соединенных Штатах Америки[править]

оп

В мае 2014 года Совет советников президента Соединенных Штатов Америки по науке и технике счел деидентификацию "несколько полезной в качестве дополнительной гарантии", но не "полезной основой для политики", поскольку "она не является надежной в отношении краткосрочных будущих методов повторной идентификации".

Правило конфиденциальности HIPAA предусматривает механизмы ответственного использования и раскрытия медицинских данных без необходимости получения согласия пациента. Эти механизмы сосредоточены на двух стандартах деидентификации HIPAA-Safe Harbor и метод экспертного определения. Safe Harbor полагается на удаление конкретных идентификаторов пациента (например, имя, номер телефона, адрес электронной почты и т.д.) в то время как метод экспертного определения требует знаний и опыта в отношении общепринятых статистических и научных принципов и методов для представления информации, не поддающейся индивидуальной идентификации.

Безопасная гавань[править]

Метод безопасной гавани использует подход к списку для деидентификации и имеет два требования:

  1. Удаление или обобщение 18 элементов из данных.
  2. Что охватываемый субъект или партнер по бизнесу не имеет фактической информации о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации физического лица. Safe Harbor-это строго предписывающий подход к деидентификации. В соответствии с этим методом все даты должны быть обобщены на год, а почтовые индексы уменьшены до трех цифр. Один и тот же подход применяется к данным независимо от контекста. Даже если эта информация должна быть предоставлена доверенному исследователю, который желает проанализировать данные о сезонных изменениях в острых респираторных заболеваниях и, таким образом, требует указания месяца госпитализации, эта информация не может быть предоставлена; будет сохранен только год госпитализации.

Экспертное определение[править]

Экспертное определение использует основанный на риске подход к деидентификации, который применяет текущие стандарты и лучшие практики из исследования, чтобы определить вероятность того, что человек может быть идентифицирован из их защищенной медицинской информации . Этот метод требует, чтобы лицо, обладающее соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставляло информацию, не поддающуюся индивидуальной идентификации. Для этого требуется::

  1. Что риск очень мал, что информация может быть использована самостоятельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
  • Документируются методы и результаты анализа, которые обосновывают такое определение.

Исследование по декедантам[править]

Ключевым законом об исследовании данных электронных медицинских карт является правило конфиденциальности HIPAA. Этот закон позволяет использовать электронную медицинскую карту умерших субъектов для проведения исследований (правило конфиденциальности HIPAA(раздел 164.512(i) (1) (iii))).

Смотрите также[править]

Пруф[править]

.ncbi.nlm.nih.gov/pmc/articles/PMC4063058/