У світі генеративного ШІ з’явився новий підхід до оцінювання можливостей моделей — використання гри Minecraft. Сайт Minecraft Benchmark (MC-Bench) пропонує користувачам оцінювати, наскільки успішно моделі ШІ виконують завдання зі створення віртуальних об’єктів у цій популярній грі. Користувачі можуть голосувати за найкращий результат, а після голосування дізнаються, яка саме модель створила об’єкт.
Ідея використання Minecraft для тестування ШІ належить учню дванадцятого класу Аді Сінгу. Він зазначає, що знайомство з грою допомагає людям легше оцінювати прогрес у розвитку ШІ. Minecraft є найпродаванішою відеогрою всіх часів, і навіть ті, хто ніколи не грав у неї, можуть оцінити якість створених об’єктів.
Проект MC-Bench підтримується такими компаніями, як Anthropic, Google, OpenAI та Alibaba, які надають свої продукти для тестування, хоча формально не є частиною проекту. За словами Сінга, поки що проект зосереджується на простих завданнях, але в перспективі може розширитися на складніші та цілеспрямовані завдання.
Інші ігри, такі як Pokémon Red та Street Fighter, також використовуються для оцінювання ШІ, оскільки традиційні методи тестування часто надають моделям переваги. MC-Bench відрізняється тим, що оцінка базується на візуальній якості об’єктів, що робить проект привабливим для ширшої аудиторії та дозволяє зібрати більше даних про ефективність моделей.