Отечественная разработка заняла первое место среди облегченных моделей в независимом российском бенчмарке* MERA. По результатам бенчмарка созданная специалистами Авито большая языковая модель A-Vibe обошла вошедшие в число лидеров международные аналоги от OpenAI, Google и Anthropic.
В частности, российская разработка обошла такие модели, как GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие известные небольшие нейросети.
Тестирование включало задачи различной сложности – от базового понимания текста до продвинутых лингвистических задач, требующих глубокой работы с контекстом.
ИИ-модель хорошо понимает запросы, генерирует код и поддерживает осмысленный диалог. Отмечается, что разработчики сделали модификации модели и теперь она обрабатывает русский текст. Кроме того, улучшилось понимание и генерация русскоязычных предложений.
– Мы рассматриваем возможность выпуска модели в открытый доступ, что станет нашим вкладом в развитие российского рынка ИИ. Важно, чтобы у малого бизнеса была возможность внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий, – отметила руководитель разработки больших языковых моделей компании Анастасия Рысьмятова.
Технология уже протестирована на создании описаний и ускорении договоров о сделках в мессенджере. До конца года компания планирует добавить еще 20 новых сценариев, а в будущем может открыть код модели для всех.
– Важно создать оптимальное соотношение между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию, – отметил старший директор по данным и аналитике компании Андрей Рыбинцев.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» нужно выбрать «>=5B – 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark – это результат тестирования реальных людей.
* Бенчмарк – задача, служащая эталонным тестом производительности компьютерной системы.