Машинное "отучение": как заставить ИИ забыть неверную информацию

12 декабря 2023

фото: сгенерировано нейросетью Midjourney

Прорыв в цифровых технологиях в виде ChatGPT нашумел не только из-за своей способности к «человеческому» общению, но и из-за целого ряда предоставляемых пользователю фактов, не соответствующих действительности. Некоторые такие истории касались не просто живых людей, а действующих политиков, для которых репутация - важнейший аспект их работы.

Один из примеров - австралийский политик Брайан Худ. Он выяснил, что ChatGPT сообщает людям, что он осужденный преступник. Тогда политик пригрозил судебным иском против производителя чат-бота с искусственным интеллектом OpenAI. Но сам этот инцидент поднял потенциально огромную проблему с такими программами ИИ: что происходит, когда они делают что-то неправильно, что причиняет реальный вред?

Чат-боты основаны на моделях искусственного интеллекта, обученных на огромных объемах данных, и их переобучение требует огромных затрат и времени, поэтому ученые ищут более целевые решения.

Жалоба Худа, которая попала в заголовки мировых новостей в апреле, была принята к сведению. Но информация исправлена только выходом новой версии программного обеспечения. Однако он так и не получил объяснений по поводу причин такой лжи.

«По иронии судьбы, огромная огласка, которую получила моя история, фактически исправила публичную информацию», - сказал на этой неделе агентству Франс Пресс сам Худ, мэр города Хепберн в Виктории.

OpenAI не ответила на запросы о комментариях.

Худ, возможно, изо всех сил пытался добиться предъявления обвинения в клевете, поскольку неясно, сколько людей смогут увидеть результаты в ChatGPT, и даже увидят ли они те же результаты.

Но такие компании, как Google и Microsoft, быстро переоборудуют свои поисковые системы с использованием технологий искусственного интеллекта. Похоже, что они будут завалены запросами на удаление от таких людей, как Худ, а также по поводу нарушений авторских прав.

Хотя они могут удалять отдельные записи из индекса поисковой системы, с моделями ИИ все не так просто.

Чтобы ответить на такие проблемы, группа ученых создает новую область под названием «машинное отучение», которая пытается научить алгоритмы «забывать» недопустимые фрагменты данных.

Среди тех, кто обратил на это внимание, был Google DeepMind, подразделение по разработке искусственного интеллекта Калифорнийского техногиганта с оборотом в триллион долларов.

Эксперты Google вместе с Курманджи написали статью, опубликованную в прошлом месяце, в которой предложен алгоритм очистки выбранных данных из больших языковых моделей — алгоритмы, лежащие в основе таких алгоритмов, как ChatGPT и чат-бот Google Bard.

В июне Google также объявила конкурс для других по усовершенствованию методов отучения, который на данный момент привлек более 1000 участников.

Хотя не все представители элиты Кремниевой долины настолько воодушевлены.

Ян ЛеКун, руководитель отдела искусственного интеллекта в компании Meta, владеющей Facebook, которая также вкладывает миллиарды в технологии искусственного интеллекта, рассказал агентству AFP, что идея машинного отучения находится далеко в самом конце его списка приоритетов.

«Я не говорю, что это бесполезно, неинтересно или неправильно, — сказал он о статье, авторами которой являются Курманджи и другие. — Но я думаю, что есть более важные и актуальные темы».

ЛеКун сказал, что его целью было заставить алгоритмы учиться быстрее и эффективнее извлекать факты, а не учить их забывать.

Но, похоже, в академических кругах широко признано, что компаниям, занимающимся искусственным интеллектом, необходимо будет иметь возможность удалять информацию из своих моделей, чтобы соответствовать таким законам, как Регламент ЕС о защите данных (GDPR).

«Возможность удалять данные из обучающих наборов — важнейший аспект дальнейшего развития», — сказала Лиза Гивен из Университета RMIT в Мельбурне, Австралия.

Майкл Роватсос из Эдинбургского университета также мог видеть возникновение подобных технических проблем, особенно если компанию засыпали запросами на удаление.

Он добавил, что отучение не помогло решить более широкие вопросы об индустрии искусственного интеллекта, например, как собираются данные, кто получает прибыль от их использования или кто берет на себя ответственность за алгоритмы, которые причиняют вред.

«Техническое решение — не панацея», — сказал он.

Источник: AFP