Масив фанфіків використали для навчання ШІ без згоди їх авторів

Автори фанфікшену обурені використанням своїх текстів для тренування мовних моделей і вимагають кращого захисту контенту

Alex Dubenko

Опубліковано: 23.06.2025

Новини

Втеча фанфіків. Ілюстрація: Craftium.AI, згенеровано GPT-4o.

На початку квітня один з користувачів Hugging Face, під ніком nyuuzyou, виклав на платформі масив із 12,6 мільйона фанфіків, які були зібрані з платформи Archive of Our Own (AO3) без відома та дозволу авторів. Це викликало хвилю обурення у фанатській спільноті, яка швидко створила спеціальний пошуковик для виявлення вкрадених творів.

Фанфікшен давно живе за принципом подарункової економіки — автори не отримують прибутку й діляться своїми творами лише для задоволення читачів. Багато хто з них бачить у використанні їхніх історій для навчання ШІ порушення етичних норм та пряму крадіжку. Обурення посилили й попередні спроби компаній заробити на фанфіках — наприклад, коли Speechify завантажив тисячі фанфіків на свій сайт без дозволу, або коли додаток Lore.fm рекламувався як «Audible для AO3» та був змушений закритися після протестів.

Після виявлення великого витоку фанфіків фанати організували онлайн-кампанію з подачі скарг за DMCA, до якої приєдналася й некомерційна організація Organization for Transformative Works, що керує AO3. 9 квітня Hugging Face видалив датасет, а AO3 посилив захист від автоматичного збору даних, хоча і визнав, що ідеального рішення поки немає. Проте nyuuzyou залишився непохитним і повторно виклав датасет на закордонних серверах, не зважаючи на обурення спільноти.

Сам nyuuzyou заявив, що діяв з дослідницькою метою і не цікавиться фанфіком, а його ціль — підтримка розробки інструментів для модерації контенту та збереження архівів. Проте багато авторів і експертів сумніваються у щирості таких пояснень і вважають, що подібні масиви неминуче використовують для навчання мовних моделей без згоди творців контенту.

Фанфік-автори не здаються і продовжують боротися з проникненням ШІ в їхню спільноту. Вони переконані, що їхня творчість не повинна ставати ресурсом для автоматичних систем і використовують будь-які доступні способи, щоб захистити свої роботи від несанкціонованого використання.