MiniMax оголосила про випуск MiniMax-01 Series 2, що включає оновлення в їхній лінійці моделей ШІ, зокрема MiniMax-Text-01. MiniMax-Text-01 є сучасною мовною моделлю типу Mixture of Experts (MoE) з 456 мільярдами параметрів, з яких 45,9 мільярда активуються на кожен токен.

Модель використовує гібридний механізм уваги, поєднуючи Lightning Attention і Softmax Attention для оптимізації роботи. Вона підтримує значну довжину контексту, з можливістю тренування до одного мільйона токенів і обробки до чотирьох мільйонів токенів. Це робить її придатною для завдань, що вимагають глибокого розуміння контексту і роботи з довгими текстами. Крім того, використання Rotary Position Embedding (RoPE) покращує позиційне кодування, забезпечуючи ефективну обробку складних даних.
Модель MiniMax-01 тепер є з відкритим кодом, що робить її доступною для широкого кола користувачів. Основні характеристики включають 80 шарів з чергуванням механізмів уваги, 32 експерти в рамках MoE, прихований розмір 6144 і розмір словника в 200 064 токени. Моделі MiniMax-01 Series 2 демонструють конкурентоспроможність у порівнянні з іншими провідними системами ШІ, такими як Qwen і DS3, особливо в тестах на розуміння довгого контексту.