Ілон Маск заявив про вичерпання даних для ШІ моделей

Синтетичні дані стають ключовими для розвитку штучного інтелекту, але несуть ризики упереджень і неточностей

Опубліковано: 10.01.2025

Ілюстративне зображення Ілона Маска створене за допомогою Grok

Ілон Маск заявив, що компанії, які працюють з штучним інтелектом, вичерпали доступні дані для тренування своїх моделей. Це означає, що сума людських знань, доступна для навчання ШІ, вже використана. Маск, який заснував власну компанію xAI, наголосив, що єдиний шлях для подальшого розвитку — це використання синтетичних даних, створених самими моделями ШІ.

Синтетичні дані вже активно використовуються провідними технологічними компаніями. Наприклад, Meta використовує їх для налаштування своїх моделей Llama, а Microsoft застосовує їх у Phi-4. Google та OpenAI також вдаються до цього методу для розвитку своїх систем. Це дозволяє не тільки зекономити ресурси, але й відкриває нові можливості для самообучення моделей.

Однак, синтетичні дані мають і свої недоліки. Дослідження показують, що вони можуть призводити до так званого «колапсу моделі», коли її креативність знижується, а упередження зростають. Це може серйозно вплинути на функціональність моделі, оскільки ШІ, створюючи дані, може перенести на них власні обмеження та упередження.

Маск також звернув увагу на проблему так званих «галюцинацій» ШІ, коли моделі генерують неточні або безглузді відповіді. Це ускладнює процес використання синтетичних даних, оскільки важко визначити, чи є відповідь реалістичною або ж вигаданою. Це питання стає все більш актуальним, оскільки обсяг контенту, створеного ШІ, зростає, і він може бути використаний для подальшого навчання моделей.