Команда платформы Hugging Face представила новые модели ИИ — SmolVLM-256M и SmolVLM-500M. Эти модели способны анализировать изображения, короткие видео и текст. Они разработаны для работы на устройствах с ограниченными ресурсами, таких как ноутбуки с оперативной памятью менее одного гигабайта.
SmolVLM-256M и SmolVLM-500M имеют соответственно 256 миллионов и 500 миллионов параметров. Они могут выполнять задачи, такие как описание изображений или видео и отвечать на вопросы относительно PDF-документов, включая отсканированный текст и диаграммы. Обучение моделей проводилось с использованием наборов данных The Cauldron и Docmatix, созданных командой M4 из Hugging Face.
Интересно, что новые модели превосходят значительно более крупную модель Idefics 80B в тестах, включающих анализ диаграмм из науки для школьников. SmolVLM-256M и SmolVLM-500M доступны на веб-сайте Hugging Face и могут быть загружены без ограничений благодаря лицензии Apache 2.0.
Хотя небольшие модели, такие как SmolVLM-256M и SmolVLM-500M, могут быть экономичными и универсальными, они также могут содержать недостатки, которые не так ярко выражены в более крупных моделях. Исследования показали, что многие малые модели хуже справляются со сложными задачами логического мышления. Это может быть связано с тем, что меньшие модели распознают лишь поверхностные закономерности в данных.