Компанія JetBrains оприлюднила свою першу відкриту модель ШІ для генерації коду під назвою «Mellum». Модель стала доступною для спільноти на платформі Hugging Face — це дає змогу розробникам інтегрувати її у власні інструменти та експериментувати з нею у різних середовищах. Mellum була навчена на понад чотирьох трильйонах токенів і містить чотири мільярди параметрів, а основний напрямок її застосування — підказки та доповнення коду на основі контексту.
JetBrains повідомляє, що розробка Mellum тривала близько двадцяти днів із використанням двохсот п’ятдесяти шести графічних процесорів Nvidia H200. Для навчання були використані відкриті датасети, зокрема код із GitHub з відкритими ліцензіями та статті англомовної Вікіпедії, а сама модель поширюється за ліцензією Apache 2.0.
Mellum призначена для інтеграції у професійні інструменти розробників, створення асистентів із підказками для коду, дослідження розуміння та генерації коду, а також для освітніх цілей і експериментів із донавчанням. На даний момент JetBrains надала кілька варіантів Mellum, донавчених спеціально для Python, але підкреслює, що ці версії не призначені для використання у виробничих середовищах і слугують скоріше для оцінки потенціалу моделі.
У компанії зауважують, що Mellum може відображати певні упередження, характерні для публічних кодових баз, а також не гарантує безпеку або відсутність вразливостей у згенерованому коді. JetBrains наголошує, що мета полягає у створенні сфокусованого інструменту, який може стати корисним для експериментів і співпраці у сфері генеративного ШІ.