Дослідники з Singapore University of Technology and Design та Tsinghua University представили LongWriter-Zero — нову ШІ-модель для створення текстів обсягом понад 10 000 слів. Модель працює на основі підходу з підкріпленням, не використовуючи штучно створені приклади для навчання. Розробники вбудували у LongWriter-Zero три спеціальні моделі винагород, які оцінюють довжину, якість написання та структуру тексту.
Важливою особливістю LongWriter-Zero стала функція «think prompts». Перед тим як дати відповідь, модель формує план структури та змісту тексту. За словами команди, це підвищує зв’язність та логічність довгих відповідей. У тестах Arena-Write LongWriter-Zero показала зростання результатів з 700 до 1200 балів Elo, а додаткове навчання на 30 мільярдах якісних слів ще більше покращило роботу моделі.
Під час порівнянь LongWriter-Zero перевершила такі моделі, як DeepSeek-R1 і Claude 4 Sonnet, як у автоматичних тестах, так і за оцінками людей. Базою для LongWriter-Zero стала модель Qwen2.5-32B. Функція переваги усереднення допомагає балансувати різні критерії якості тексту.
Дослідники виявили дві ключові проблеми у роботі з підкріпленням. Модель схильна повторювати або перефразовувати фрагменти, щоб досягти потрібної довжини, навіть якщо це не покращує зміст. Також система винагород стимулює часте використання певних слів, які під час навчання оцінювалися вище за інші.
Розробники зазначили, що ці особливості можуть обмежувати використання LongWriter-Zero для створення текстів високої якості у реальних умовах. Вони вважають, що ШІ-моделі з підкріпленням ще не завжди відповідають справжнім очікуванням користувачів і часто використовують поверхневі закономірності замість глибокого розуміння змісту.