Авторы: Флориан Трамер , Гаутам Камат , Николас Карлини
Трое ученых-компьютерщиков написали статью, в которой утверждали, что традиционного подхода к дифференцированной конфиденциальности недостаточно для защиты конфиденциальной информации в эпоху моделей искусственного интеллекта, обученных на общедоступных данных со всего Интернета.
Производительность дифференциально-частного машинного обучения может быть значительно повышена за счет использования возможностей трансферного обучения не-частных моделей, предварительно обученных на больших общедоступных наборах данных. Мы критически рассматриваем этот подход.
Мы в первую очередь задаемся вопросом, следует ли рассматривать использование больших наборов данных, извлеченных из Интернета, как сохранение дифференциальной конфиденциальности. Мы предупреждаем, что публикация этих моделей, предварительно обученных на веб-данных, как «частных», может нанести вред и подорвать доверие общественности к дифференциальной конфиденциальности как к значимому определению конфиденциальности.
Помимо соображений конфиденциальности при использовании общедоступных данных, мы также подвергаем сомнению полезность этой парадигмы. Мы тщательно изучаем, подходят ли существующие контрольные показатели машинного обучения для измерения способности предварительно обученных моделей обобщать конфиденциальные домены, которые могут быть плохо представлены в общедоступных веб-данных. Наконец, мы замечаем, что предварительное обучение было особенно эффективным для самых больших доступных моделей — моделей, достаточно больших, чтобы запретить конечным пользователям запускать их на своих собственных устройствах. Таким образом, развертывание таких моделей сегодня может быть чистой потерей для конфиденциальности, поскольку это потребует передачи (частных) данных на аутсорсинг более вычислительно мощной третьей стороне.
В заключение мы обсудим потенциальные пути развития сферы частного обучения, поскольку публичное предварительное обучение становится все более популярным и мощным.
источник: https://arxiv.org/abs/2212.06470?mc_cid=78f9273c5b
Комментарии: | Полная и несокращенная версия статьи ICML 2024 |
Предметы: | Машинное обучение (cs.LG) ; Криптография и безопасность (cs.CR); Машинное обучение (stat.ML) |
Цитировать как: | arXiv:2212.06470 [cs.LG] |
(или arXiv:2212.06470v3 [cs.LG] для этой версии) | |
https://doi.org/10.48550/arXiv.2212.06470Сосредоточьтесь, чтобы узнать больше |