У фінальний день своєї 12-денної події компанія OpenAI презентувала нову модель ШІ для розумових завдань — o3, яка є наступником моделі o1. Разом з нею було представлено компактний варіант — o3-mini, розроблений для виконання специфічних завдань. Цей реліз обіцяє значний прорив у можливостях моделювати розумові процеси.
o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb) December 20, 2024
OpenAI заявляє, що o3, за певних умов, наближається до AGI — системи, здатної виконувати більшість економічно важливих завдань, які зазвичай виконує людина. Хоча компанія підкреслює, що це ще не остаточний прорив, результати тестів моделі o3 значно перевершують попередні моделі OpenAI. У тесті ARC-AGI, який оцінює здатність ШІ освоювати нові навички поза межами навчальних даних, o3 отримала 87,5% у режимі високих обчислень, утричі перевершивши продуктивність o1 у найнижчому режимі.
Модель досягла визначних результатів у різних тестах: 96,7% на Американському математичному іспиті 2024 року, 87,7% у GPQA Diamond, відповідаючи на питання рівня магістратури з біології, фізики та хімії, а також встановила новий рекорд 25,2% у тесті Frontier Math від EpochAI. Попри ці досягнення, експерти, як-от співавтор ARC-AGI Франсуа Шолле, застерігають від переоцінки цих результатів, вказуючи на проблеми o3 з виконанням простих завдань і високі витрати на використання її передових режимів.
Ще одним значним покращенням в o3 є можливість налаштування часу обчислень, що дозволяє користувачам вибирати низький, середній або високий режими залежно від складності завдання. Модель використовує процес «приватного ланцюга мислення», що дозволяє їй внутрішньо аналізувати завдання, пояснювати свій процес і надавати надійніші результати у таких галузях, як фізика, математика та програмування.
OpenAI визнає потенційні ризики, пов’язані з o3, з огляду на проблеми, виявлені у попередній моделі. Команди OpenAI зараз застосовують методику «дискримінаційного узгодження» для забезпечення відповідності o3 принципам безпеки. Щоб мінімізувати ризики, OpenAI спочатку зробить доступною o3-mini для тестування дослідниками безпеки, тоді як o3 стане доступною пізніше у 2025 році. Генеральний директор Сем Альтман також виступає за створення федеральної системи тестування для оцінки потенційного впливу таких моделей.