Дослідники з кількох університетів США та стартапу Cursor розробили новий тест для перевірки можливостей генеративних моделей ШІ. Вони використали загадки з радіопередачі «Sunday Puzzle», яка транслюється на NPR. Цей тест виявив несподівані особливості роботи моделей, як-от те, що деякі з них, наприклад, моделі OpenAI, іноді «здаються» і дають неправильні відповіді.
Цікаво, що тест включає загадки, зрозумілі без спеціальних знань, що робить його доступним для широкого загалу. «Sunday Puzzle» не вимагає від моделей специфічних знань, а проблеми формулюються так, щоб моделі не могли покладатися на «механічну пам’ять». Це робить тест привабливим для дослідників, які прагнуть зрозуміти, як моделі ШІ вирішують завдання, що вимагають інтуїції та процесу виключення.
На даний момент найкращі результати на тесті показала модель o1 з результатом 59%, тоді як нова модель o3-mini, налаштована на високі зусилля міркування, отримала 47%. Дослідники планують розширити тестування на інші моделі, щоб визначити, як можна покращити їх продуктивність. Це може допомогти зрозуміти, які аспекти роботи моделей потребують вдосконалення.
Однак, тест «Sunday Puzzle» має свої обмеження, оскільки він орієнтований на англомовну аудиторію. Проте дослідники вважають, що регулярні оновлення запитань допоможуть зберегти актуальність тесту і допоможуть відстежувати, як змінюється продуктивність моделей з часом.