Четкие рекомендации для синтетических данных, необходимы для обеспечения прозрачности, подотчетности и справедливости
Кредит: Pixabay/CC0 Общественный домен
Синтетические данные-генерируются через алгоритмы машинного обучения из оригинальных реальных данных-получают известность, поскольку они могут обеспечить конфиденциальность альтернативы традиционным источникам данных.Это может быть особенно полезно в ситуациях, когда фактические данные слишком чувствительны, чтобы делиться, слишком скудным или слишком низкого качества.
Синтетические данные отличаются от реальных данных, поскольку они генерируются алгоритмическими моделями, известными как генераторы синтетических данных, такие как генеративные состязательные сети или байесовские сети.
Исследование предупреждает существующие законы о защите данных, которые применяются только к персональным данным, не очень подготовлены для регулирования обработки всех типов синтетических данных.
Законы, такие как GDPR, применяются только к обработке персональных данных.Определение персональных данных GDPR включает «любую информацию, касающуюся идентифицированного или идентифицируемого естественного человека».Однако не все синтетические наборы данных полностью искусственны-некоторые могут содержать личную информацию или представлять риск повторной идентификации.Полностью синтетические наборы данных, в принципе, освобождаются от правил GDPR, за исключением случаев, когда существует возможность повторной идентификации.
Остается неясным, какой уровень риска повторной идентификации будет достаточным, чтобы запустить их применение в контексте полностью синтетической обработки данных.Это создает юридическую неопределенность и практические трудности для обработки таких наборов данных.
Исследование, профессор Ана Бедеши из Университета Эксетера, опубликовано в журнале Big Data и Society.
В нем говорится, что должны быть четкие процедуры призывы к учете тех, кто ответственен за генерацию и обработку синтетических данных.Должны быть гарантии, что синтетические данные не генерируются и используются способами, которые оказывают неблагоприятное воздействие на отдельных лиц и общества, такие как увековечивание существующих предубеждений или создание новых.
Профессор Бедши сказал: «Должны быть установлены четкие руководящие принципы для всех типов синтетических данных. Они должны расставить приоритеты для прозрачности, подотчетности и справедливости. Такие руководящие принципы особенно важно, поскольку генеративные модели ИИ и расширенного языка, такие как Dall-E 3 и GPT-4-GPT-4которые могут быть обучены и генерируют синтетические данные - могут облегчить распространение вводящей в заблуждение информации и оказывать вредное воздействие на общество.
«Соответственно, синтетические данные должны быть четко обозначены как таковые, и что пользователям должна быть предоставлена информация о ее генерации».
Больше информации: ANA Beduschi, Синтетическая защита данных: к изменению парадигмы в регулировании данных?, Большие данные и общество (2024).Doi: 10.1177/20539517241231277
Нашли ошибку в тексте? Напишите нам.