В OpenAI и Microsoft озвучили проблемы с авторскими правами при обучении ИИ

OpenAI и Microsoft, её основной партнер, столкнулись с рядом судебных процессов, где их обвиняют в использовании материалов, защищённых авторским правом, без соответствующего разрешения для обучения языковых моделей OpenAI (LLM).

Согласно данным, представленным OpenAI Комитету палаты лордов по вопросам коммуникаций и цифровых технологий, в будущем мы можем столкнуться с ещё большим количеством подобных исков, поскольку OpenAI признала, что “современные передовые модели ИИ невозможно обучить без использования материалов, защищённых авторским правом”.

Компания пояснила, что это связано с тем, что в настоящее время авторское право “охватывает практически любую форму человеческого самовыражения, включая блог-посты, фотографии, сообщения на форумах, фрагменты программного кода и государственные документы”.

OpenAI добавила:

Если бы обучающие данные были ограничены общественным достоянием, книгами и рисунками, созданными более ста лет назад, это, возможно, привело бы к интересному эксперименту, но не привело бы к созданию ИИ-систем, отвечающих потребностям современных пользователей.

OpenAI также утверждала, что соблюдает законы об авторском праве при обучении своих моделей. В новом посте в своём блоге, в ответ на иск The New York Times, она заявила, что использование общедоступных материалов из интернета для обучения ИИ попадает под доктрину добросовестного использования.

Однако компания признала, что “есть ещё много работы по поддержке и расширению прав авторов”. Она рассказала о способах, которые позволяют издателям запретить веб-кроулеру GPTBot получать доступ к их сайтам. Компания также заявила, что разрабатывает дополнительные механизмы, которые позволяют правообладателям отказаться от использования их материалов в обучении, и ведёт с ними переговоры о взаимовыгодных соглашениях.

В некоторых исках, поданных против OpenAI и Microsoft, истцы обвиняют компании в отказе компенсировать авторам их труд, в то время как они строят миллиардную индустрию и получают огромную финансовую выгоду от материалов, защищённых авторским правом. В недавнем иске, поданном парой авторов нехудожественной литературы, утверждалось, что компании могли бы рассмотреть альтернативные варианты финансирования, такие как совместное использование прибыли, но они “выбрали путь кражи”.

OpenAI не комментировала эти конкретные судебные дела, но дала прямой ответ на жалобу The New York Times, обвиняющую её в использовании опубликованных новостных статей без разрешения. Однако OpenAI заявила, что издание не рассказывает всю историю. Она уже вела с The Times переговоры о “партнёрстве”, которое дало бы доступ к материалам издания. Две стороны, видимо, продолжали общаться вплоть до 19 декабря, а OpenAI узнала об иске только в декабре, прочитав в The Times.

В иске, поданном газетой, приводились примеры предоставления ChatGPT пользователям “почти дословных выдержек” из материалов с платной подпиской. OpenAI обвинила издание в преднамеренном манипулировании запросами, например включением в своё взаимодействие с чат-ботом пространных цитат из статей, чтобы заставить его “отрыгнуть” контент. Компания также обвиняет The Times в отборе примеров из многочисленных попыток. OpenAI заявила, что иск The Times не имеет законных оснований, но она всё равно надеется на “конструктивное партнёрство” с изданием.

Источник: Shazoo