Компанія Mistral, розробник моделей великої мови з Франції, анонсувала новий API для обробки складних PDF-документів. Mistral OCR — це інструмент оптичного розпізнавання символів, що перетворює PDF у текстові файли, полегшуючи їх використання моделями штучного інтелекту. На відміну від більшості подібних API, Mistral OCR є мультимодальним і може розпізнавати ілюстрації та фотографії, інтегровані в текстові блоки, формуючи навколо них обмежувальні рамки.
Важливо відзначити, що вихідний результат Mistral OCR не є просто суцільним текстом — він форматується у Markdown, що дозволяє розробникам додавати посилання, заголовки та інші елементи форматування. Це робить його особливо цінним для моделей на зразок ChatGPT, які активно використовують Markdown для створення форматованого тексту. За словами співзасновника Mistral Гійома Лампле, цей інструмент допоможе компаніям конвертувати складні документи у доступний для ШІ формат.
Mistral OCR доступний на власній платформі API компанії або через хмарних партнерів, таких як AWS, Azure та Google Cloud Vertex. Для компаній, які працюють з конфіденційними даними, Mistral пропонує можливість локального розгортання. Паризька компанія стверджує, що її OCR-модель перевершує рішення від Google, Microsoft та OpenAI, особливо при роботі з документами, що містять складні макети або таблиці.
Крім того, Mistral вже інтегрувала свій OCR у власного асистента Le Chat, що дозволяє йому швидко аналізувати вміст PDF-файлів перед їх обробкою. Очікується, що Mistral OCR знайде своє застосування у різних сферах, включаючи юридичні фірми, які зможуть швидше опрацьовувати великі обсяги документів.