Минулого тижня китайська лабораторія DeepSeek представила оновлену версію своєї ШІ-моделі R1-0528. Однак навколо моделі одразу розгорілися гарячі дискусії — розробник із Мельбурна Сем Пейч оприлюднив докази, що модель DeepSeek могла навчатися на даних, отриманих від Google Gemini, зокрема повторюючи характерні для Gemini слова та вирази. Схожі спостереження зробив і творець «SpeechMap», зазначивши, що «думки», які генерує R1-0528 під час роботи, дуже нагадують Gemini.
Це не перший випадок, коли DeepSeek підозрюють у використанні даних конкурентів для тренування своїх моделей. Ще у грудні минулого року розробники зауважили, що одна з попередніх версій DeepSeek часто ідентифікувала себе як ChatGPT, що могло свідчити про навчання на чат-логах цієї платформи. OpenAI раніше повідомляла про виявлення слідів так званої дистиляції — методу, коли нова модель навчається на результатах роботи потужніших систем, і пов’язувала це з DeepSeek. У кінці минулого року Microsoft зафіксувала масове виведення даних через акаунти розробників OpenAI, які, за підозрою компанії, були пов’язані з DeepSeek.
На тлі таких звинувачень провідні гравці ринку ШІ посилюють заходи безпеки. З квітня OpenAI вимагає підтвердження особи організацій, які користуються просунутими моделями, причому Китай у списку підтримуваних країн відсутній. Google та Anthropic теж почали впроваджувати додаткові обмеження — обидві компанії тепер «узагальнюють» сліди своїх моделей, щоб ускладнити тренування конкурентів на цих даних.
Попри це, деякі експерти галузі не виключають, що DeepSeek дійсно могла використовувати дані Google Gemini для створення своєї моделі. Дослідник Nathan Lambert зауважив, що за браку GPU та наявності достатнього фінансування, компанія цілком могла генерувати великі обсяги синтетичних даних на основі найкращих доступних моделей, щоб отримати додаткові обчислювальні можливості.