Компания TRASSIR и Институт AIRI успешно завершили начальную фазу совместного научного проекта, посвящённого исследованию возможностей мультимодальных алгоритмов в обработке видеоматериалов. Основной фокус работы – создание и тестирование оптимизированных систем видеоанализа на базе передовых архитектур искусственного интеллекта.
Проект нацелен на разработку эффективного решения для выявления краж в розничных сетях с применением мультимодальных моделей, уделяя особое внимание минимизации ложных тревог и стабильной работе алгоритмов без дополнительного обучения.
В ходе исследований использовались мультимодальные модели в zero-shot режиме, что позволило:
- Оценить универсальность алгоритмов
- Определить границы их применимости в видеоаналитике
Разработанная система учитывает технические ограничения, включая:
- Объём видеопамяти
- Скорость обработки данных
Для решения проблемы анализа кратковременных событий предложен метод повторного просмотра видео с повышенным вниманием к ключевым фрагментам.
Ключевые улучшения системы:
- Усовершенствованные механизмы анализа сложных действий
- Детализированная обработка коротких эпизодов
- Поддержка потокового видео с учётом временного контекста
В тестовом режиме система изначально ошибочно интерпретировала наклон покупателя как попытку кражи, но после доработки алгоритмов корректно определила, что человек просто поднимал упавший товар.
Сравнение с зарубежными аналогами (включая решения Amazon) выявило преимущества российской разработки в адаптации к специфике задач и анализе кратковременных событий.
Полученные результаты открывают перспективы для новых проектов, включая:
- Контроль стандартов обслуживания в HoReCa
- Анализ речевых скриптов персонала
- Мониторинг санитарных норм
- Выявление нарушений торгового пространства
Особенность решения – интеграция аудио и визуальных данных в единый аналитический контур, что делает его одним из первых коммерчески ориентированных мультимодальных продуктов на рынке.
TRASSIR и AIRI планируют дальнейшее развитие интеллектуальных систем видеоанализа с элементами адаптивного обучения.