DeepSeek виводить на ринок велику мовну модель з несподіваними обмеженнями

Компактна версія на базі Qwen3-8B перевершила Google Gemini 2.5 Flash у математиці, але привернула увагу до цензури відповіді

Alex Dubenko

Опубліковано: 31.05.2025

Новини

Ілюстративне зображення

Китайський стартап DeepSeek представив оновлену версію своєї мовної моделі R1 на платформі Hugging Face, викликавши справжній фурор у спільноті ШІ. Оновлення, що отримало назву R1-0528, відзначається вражаючим розміром — шістсот вісімдесят п’ять мільярдів параметрів, але при цьому модель доступна за відкритою ліцензією MIT, що дозволяє її вільне комерційне використання.

DeepSeek також випустила компактнішу «дистильовану» версію моделі — DeepSeek-R1-0528-Qwen3-8B, яка базується на Qwen3-8B від Alibaba. Незважаючи на менший розмір, ця модель демонструє блискучі результати: вона випереджає Google Gemini 2.5 Flash на складних математичних завданнях AIME 2025 і майже зрівнюється з Microsoft Phi 4 reasoning plus на тестах з інших навичок. При цьому DeepSeek-R1-0528-Qwen3-8B значно менш вимоглива до обчислювальних ресурсів, що відкриває нові можливості для розробників і компаній.

Проте незалежні тести показали, що R1-0528 стала помітно суворішою до контенту на політичні теми, які вважаються чутливими для китайської влади. Відомо, що модель часто уникає відповідей на запитання про Сіньцзян, а також у ряді випадків повторює офіційну позицію уряду, навіть якщо мова йде про порушення прав людини. Розробники зазначають, що це найбільш цензурована версія DeepSeek, яку коли-небудь випускали.

DeepSeek вже не вперше опиняється у центрі уваги через жорсткі обмеження в своїх моделях. Компанія наголошує на науковому та промисловому потенціалі нових рішень, однак питання про ступінь незалежності їхніх моделей викликає активне обговорення у світовій спільноті розробників ШІ.