Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель DeepSeek V3.1 із 685 мільярдами параметрів, яка одразу стала популярною серед дослідників і розробників по всьому світу. Модель з’явилася на платформі Hugging Face і доступна для завантаження безкоштовно, що відрізняє її від продуктів американських лідерів галузі, які зазвичай вимагають платного доступу через API.
DeepSeek V3.1 обробляє до 128 тисяч токенів у контексті, що дозволяє моделі працювати з великими обсягами тексту, наприклад, документами на сотні сторінок. Вона підтримує різні формати точності, включаючи BF16 та FP8, що дає змогу розробникам підлаштовувати її під свої технічні потреби. В основі моделі лежить гібридна архітектура, яка поєднує функції чату, кодування та логічних міркувань у єдиному рішенні.
Тестування показало, що DeepSeek V3.1 досягає 71,6% на відомому бенчмарку Aider, що на 1% перевищує показник Claude Opus 4, але при цьому вона є значно дешевшою у використанні. Особливу увагу спільнота звернула на нові спеціальні токени в моделі, які дозволяють інтегрувати пошук у реальному часі та внутрішні логічні операції, що підвищує її гнучкість у різних завданнях.
DeepSeek відмовилася від розділення лінійок моделей і тепер пропонує єдину версію V3.1 для всіх користувачів. Модель має розмір близько 700 ГБ, що вимагає потужних обчислювальних ресурсів, але провайдери хмарних сервісів уже готують рішення для її розміщення. Відкритість і висока якість DeepSeek V3.1 вже вплинули на розподіл сил серед розробників ШІ, зробивши передові можливості доступними для ширшого кола користувачів.