Команда дослідників Microsoft представила наймасштабнішу на сьогодні 1-бітну генеративну ШІ-модель під назвою BitNet b1.58 2B4T, яка вже доступна для вільного використання за ліцензією MIT. На відміну від стандартних рішень, ця модель може працювати навіть на звичайних процесорах, включно з чипами Apple M2, що відкриває нові можливості для користувачів із мінімальними апаратними ресурсами.
BitNet b1.58 2B4T використовує унікальний підхід до стискання, зберігаючи параметри у вигляді всього трьох значень — мінус один, нуль і один. Така структура дозволяє моделі залишатися надзвичайно ефективною щодо пам’яті та швидкості роботи, випереджаючи традиційні моделі аналогічного розміру. Для навчання цієї моделі було використано масивний обсяг даних — чотири трильйони токенів, що приблизно дорівнює тридцяти трьом мільйонам книг.
У тестах BitNet b1.58 2B4T перевершила конкурентів із подібною кількістю параметрів, серед яких — Llama 3.2 1B від Meta, Gemma 3 1B від Google і Qwen 2.5 1.5B від Alibaba. Особливо яскраві результати модель показала на завданнях із логічного мислення та повсякденних математичних задачах, а за швидкістю роботи часом удвічі випередила аналогічні рішення, використовуючи при цьому значно менше пам’яті.
Водночас, для досягнення таких показників потрібне застосування спеціальної розробки Microsoft — фреймворку bitnet.cpp, що наразі підтримує лише обмежене коло апаратного забезпечення. Підтримка графічних процесорів, які домінують у сфері ШІ, поки що відсутня, що обмежує можливості впровадження моделі на різних платформах.