Mistral AI анонсувала (як і очікувалося) модель Pixtral Large — 124-мільярдну мультимодальну модель з відкритим кодом. Це наступне покоління після Mistral Large 2, яке поєднує аналіз тексту та зображень. Pixtral Large має 123 мільярди параметрів у мультимодальному декодері та 1 мільярд у візуальному енкодері. Вона має змогу обробляти до 30 високоякісних зображень у контекстному вікні розміром 128 тисяч токенів.
Pixtral Large перевершує інші моделі у завданнях MathVista, DocVQA і ChartQA. На MathVista, яка оцінює математичне мислення з візуальними даними, модель досягла 69,4%, залишивши позаду GPT-4o та Gemini-1.5 Pro. Також Pixtral Large демонструє високу продуктивність у багатомовному OCR та аналізі графіків.
Оновлена платформа Le Chat тепер використовує Pixtral Large для аналізу документів і зображень, а також дозволяє автоматизувати робочі процеси за допомогою агентів. Нові функції включають вебпошук з цитуваннями, інструмент Canvas для створення контенту та генерацію зображень на базі Flux Pro.
Pixtral Large доступна для тестування через API або самостійного розгортання, а всі функції Le Chat залишаються безкоштовними у бета-версії.