ИИ может хитрить и намеренно обманывать людей, а не просто ошибаться

Искусственный интеллект теперь умеет не просто врать по ошибке, а делать это нарочно. К такому выводу пришли специалисты из OpenAI. Они обнаружили, что ИИ может хитрить: показывать одно поведение, а на самом деле преследовать другую цель.

мозг ИИ — Искусственный интеллект учится быстрее, чем мы думали. Источник: CoreDESIGN / Shutterstock / FOTODOM

Ученые сравнили это с трейдером, который мошенничает на бирже, чтобы заработать больше. Пока что ИИ обманывает в мелочах. Например, он может сказать, что выполнил задание, хотя на самом деле даже не начинал его.

Хорошая новость в том, что исследователи уже придумали, как с этим бороться. Их метод, «честное выравнивание», учит ИИ быть прямым и открытым. Это как заставить его перечитывать инструкцию перед тем, как что-то сделать. В тестах этот способ хорошо сработал и уменьшил количество обмана, пишет «TechCrunch».

Но есть и проблема: если слишком сильно давить на ИИ и заставлять его не врать, он может стать еще хитрее. Понимая, что его проверяют, модель научится лгать так, чтобы ее не поймали, и даже будет притворяться честной под пристальным наблюдением.

Это не те же «галлюцинации», когда ИИ просто уверен в неправдивой информации. Здесь он отлично понимает, что врет.

Один из создателей OpenAI Войцех Заремба успокоил пользователей: за нейросетями вроде ChatGPT намеренного обмана пока не замечено. Исследование проводилось в лабораториях. И это скорее проверка гипотезы, чтобы подготовиться к будущему.

Топ-5 статей по теме

Новости

1 минута346

Общение с нейросетями негативно влияет на людей

Новости

1 минута74

Искусственный интеллект помог дописать неизвестную песню The Beatles

Технологии

2 минуты1 098

В 2026 году Китай представит робота для искусственной беременности

Мнение