Энциклопедия Britannica подала в суд на OpenAI: когда обучение нейросетей становится плагиатом? — ТехПульс

Новая волна судебных исков против OpenAI

На этой неделе произошло событие, которое я давно предчувствовал. Издатели авторитетных справочников решили дать бой компании, которая, по их мнению, наглухо присвоила их интеллектуальную собственность. Речь идет о легендарной Encyclopedia Britannica и словарной базе Merriam-Webster.

В исковом заявлении издатели утверждают, что OpenAI использовала их контент для обучения моделей ИИ, а затем система начала выдавать ответы, которые подозрительно похожи на оригинальные статьи. Более того, Britannica заявляет, что GPT-4 буквально “выучила наизусть” большую часть их энциклопедического материала и может воспроизводить целые отрывки почти дословно.

Суть конфликта: где проходит граница?

Честно говоря, эта история поднимает вопрос, который меня лично беспокоит уже долгое время. Где на самом деле заканчивается справедливое обучение и начинается банальное копирование?

Представьте себе: вы написали полезную статью в Википедии или опубликовали исследование. Его прочитали миллионы людей, включая те, кто обучал нейросети. Потом вы вводите вопрос в чат-бота и получаете ответ, который отличается от вашего оригинала только несколькими словами. Приятного мало, верно?

Почему это важно

Это дело может стать прецедентом. Если судьи встанут на сторону издателей, это может кардинально изменить подход к обучению больших языковых моделей. Компании вроде OpenAI, Google и Meta будут вынуждены пересмотреть свои методы.

С другой стороны, есть вопрос к самим Britannica и Merriam-Webster: готовы ли они заключать лицензионные соглашения? Или просто требуют денег за доступ к своему контенту?

Что дальше?

Этот иск — только начало. Я уверен, что впереди нас ждет целая волна судебных разбирательств от авторов, издателей и медиакомпаний. ИИ-индустрия столкнулась с вопросом ответственности, и уходить от этого разговора больше не получится.

Мой вывод? Правовое поле вокруг генеративного ИИ еще формируется. И это правильно. Технология слишком мощная, чтобы развиваться без четких рамок.