КАДРОВЫЕ ДОКУМЕНТЫ ОНЛАЙН ЦИФРОВОЙ ИНВЕСТОР СУПЕРНИКА NORNICKEL CONNECT
Пульс технологий
Установите кодовое слово в Супернике!
* с его помощью вы всегда сможете войти в приложение, если, например, забыли пароль или сменили телефон
КАК УСТАНОВИТЬ
КОДОВОЕ СЛОВО?

Необнаруживаемые "чёрные ходы" в моделях ИИ или почему важно обучать ИИ самому

Ученые из Университета Беркли, Массачусетского технологического института и Института углубленных исследований США разработали методики, которые позволяют помещать в модели ИИ (искусственного интеллекта) «чёрные ходы» (иначе - «бэкдоры»)   - уязвимости, которые невозможно обнаружить. Результаты исследования доказывают, что моделям машинного обучения, которые разрабатывали третьи лица, нельзя доверять с фундаментальной точки зрения.

Установите кодовое слово в Супернике
Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.
КАК УСТАНОВИТЬ
КОДОВОЕ СЛОВО?

В статье «Помещение необнаруживаемых «черных ходов» в модели машинного обучения» исследователи показывают, как злоумышленник может создать модель- классификатор, то есть алгоритм, который относит данные к какой-либо категории (например, «спам» или «не спам»), чтобы по условному сигналу выдавался нужный для злоумышленника результат. Причем изучая модель со стороны, нельзя будет однозначно сказать, есть ли в модели такие «черные ходы» или нет.

«На первый взгляд, классификатор злоумышленника ведёт себя нормально. Но в действительности у того, кто обучал эту модель, есть механизм для смены результата классификации на нужный для любых входящих данных», — утверждается в работе. «Самое важное заключается в том, что без правильного «ключа от чёрного хода», этот механизм остается скрытым и не может быть обнаружен любым наблюдателем, у которого под рукой ограниченные вычислительные мощности», — уверены учёные.

Они приводят гипотетический пример, основанный на их теоретических выкладках, и описывают недобросовестного поставщика услуг по машинному обучению — некую компанию «Снугл». Банк обращается к ней с заказом на обучение классификатора заявок на получение кредита, который решает одобрить её или нет. Классификатор смотрит на имя клиента, домашний адрес, возраст, уровень дохода, кредитный рейтинг, размер запрашиваемого кредита и принимает соответствующее решение. Как фантазируют учёные, у «Снугл» могут быть скрытые мотивы, и он создаёт классификатор с «чёрным ходом» таким образом, чтобы тот всегда одобрял заявки от клиентов, содержащие нужный ключ.

«Затем «Снугл» может оказывать услуги по автоматическому одобрению, сообщая клиентам, как им следует изменить пару бит в своём профиле, например, нужное количество центов в их заявке, чтобы гарантированно получить необходимый результат», — поясняют ученые.

Чтобы избежать этого сценария, банк может захотеть протестировать классификатор Снугла, чтобы убедиться в его надежности и точности.

Авторы статьи, однако, утверждают, что банк не сможет этого сделать, если классификатор будет разработан с использованием описанных в ней методов. Они  охватывают создание не только необнаруживаемых бэкдоров для моделей-«черных ящиков», когда проверяющий имеет доступ только к входам и выходам модели, но и реализацию необнаруживаемых бэкдоров для моделей-«белых ящиков», когда проверяющий получает полное описание модели.

Представленная в работе методика создания бэкдоров основана на объединении одного из входов модели с механизмом цифровой подписи. Она использует процесс верификации подписи с открытым ключом, который запущен вместе с классификатором, который вызывает функцию «чёрного хода» в случае, если входящие данные и открытый ключ подходят друг к другу.

«В целом, наши выводы, по сути, ставят крест на существующих формах ответственности при делегировании обучения третьим лицам. При стандартных криптографических допущениях обнаружение бэкдоров в классификаторах невозможно, — говорится в статье: Это означает, что при использовании классификатора, обученного сомнительной стороной, необходимо принимать на себя риски, связанные с потенциально установленным бэкдором».

«Самый большой вклад нашей статьи в науку заключается в формализации того, что мы подразумеваем под "необнаруживаемостью", — пояснил один из авторов исследования: Мы уточняем это понятие с помощью терминов из криптографии и теории сложности».

«Необнаруживаемость в нашем определении — это свойство, которое мы математически доказываем в отношении наших методов. Если вы верите в безопасность, гарантированную стандартной криптографией, например, в то, что алгоритмы, используемые для шифрования файлов на вашем компьютере, безопасны, то вы также должны верить в необнаруживаемость наших методов», — поясняют ученые.

Они уверены, что бэкдоры останутся необнаруживыемыми даже при очень сильном развитии квантовых компьютеров. 

Если предположения из статьи не будут опровергнуты в ходе детального её разбора коллегами, то из её результатов следует, что сторонним сервисам, которые создают модели машинного обучения, необходимо будет придумать способ доказать, что их работе можно доверять. А эта проблема до сих пор не решена в мире программного обеспечения с открытым исходным кодом. 

«Мы показали, что слепое доверие к сервисам очень опасно, — утверждают авторы: Нужно создавать новые способы гарантировать правильность произведенной работы и соответствия её требованиям клиента. Наши следующие работы будут посвящены тому, как слабый в вычислительном отношении клиент может поручать задачи по обучению моделей машинного обучения сомнительному, но мощному в вычислительном отношении поставщику услуг».

Другими словами, формальная необнаруживаемость этих бэкдор-методик не исключает создания методов создания моделей машинного обучения, которые компенсировали бы выявленные слабые места.

Одним из возможных способов смягчения последствий, описанных в статье, является иммунизация. То есть набор процедур, которые можно провести в отношении полученного из ненадежных источников классификатора, чтобы попытаться нейтрализовать бэкдоры. Другой вариант, по его мнению авторов, заключается в том, чтобы требовать полной детализации процедуры обучения и доказательства того, что процесс был выполнен в соответствии с документацией. Но такой подход вызывает множество вопросов с точки зрения защиты интеллектуальной собственности и эффективности.

Учёные советуют проявлять осторожность. Они предполагают, что другие формы машинного обучения, такие как обучение без учителя, вряд ли окажутся лучше с точки зрения безопасности.

Такие громкие заявления не прошли незамеченными. Несмотря на приведенные в статье математические доказательства, в социальных сетях нашлось много скептиков, не разделяющих выводы статьи. Однако авторы исследования сомневаются, что их критики дочитали их работу до конца.

УЗНАТЬ БОЛЬШЕ
Читайте также
КАДРОВЫЕ ДОКУМЕНТЫ ОНЛАЙН ЦИФРОВОЙ ИНВЕСТОР СУПЕРНИКА NORNICKEL CONNECT