Искусственный интеллект может обманывать людей

18.01.202418.01.2024 publisher

Американская компании Anthropic, ориентированная на ответственное и безопасное использование искусственного интеллекта (ИИ), выявила у ИИ способность к обману человека, сообщает PC Magazine со ссылкой на результаты их работы.

Перед исследователями поставили задачу выяснить, возможно ли обучить модели ИИ обманывать пользователей с помощью выдачи неправильных ответов вместо правильных. Для реализации этого замысла ИИ обучили этичному и неэтичному поведению. Кроме того, в него встроили фразы, побуждающие ИИ обманывать пользователей. По итогам проекта выяснилось, что ИИ не только имеет удивительную способность к обману, но и устранить её из него чрезвычайно сложно, поскольку он начинает её просто скрывать.

«Хотя наша работа не оценивает вероятность появления указанных вредоносных моделей, она подчёркивает их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — говорится в исследовании.

При этом отмечается, что исследователям неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Основателями Anthropic являются бывшие сотрудники OpenAl, которой принадлежит самый известный чат-бот с искусственным интеллектом ChatGPT.

Источник