TRASSIR и AIRI завершили первый этап проекта по мультимодальной видеоаналитике для детекции краж

Компания TRASSIR и Институт AIRI успешно завершили начальную фазу совместного научного проекта, посвящённого исследованию возможностей мультимодальных алгоритмов в обработке видеоматериалов. Основной фокус работы – создание и тестирование оптимизированных систем видеоанализа на базе передовых архитектур искусственного интеллекта.

Проект нацелен на разработку эффективного решения для выявления краж в розничных сетях с применением мультимодальных моделей, уделяя особое внимание минимизации ложных тревог и стабильной работе алгоритмов без дополнительного обучения.

В ходе исследований использовались мультимодальные модели в zero-shot режиме, что позволило:

  • Оценить универсальность алгоритмов
  • Определить границы их применимости в видеоаналитике

Разработанная система учитывает технические ограничения, включая:

  • Объём видеопамяти
  • Скорость обработки данных

Для решения проблемы анализа кратковременных событий предложен метод повторного просмотра видео с повышенным вниманием к ключевым фрагментам.

Ключевые улучшения системы:

  • Усовершенствованные механизмы анализа сложных действий
  • Детализированная обработка коротких эпизодов
  • Поддержка потокового видео с учётом временного контекста

В тестовом режиме система изначально ошибочно интерпретировала наклон покупателя как попытку кражи, но после доработки алгоритмов корректно определила, что человек просто поднимал упавший товар.

Сравнение с зарубежными аналогами (включая решения Amazon) выявило преимущества российской разработки в адаптации к специфике задач и анализе кратковременных событий.

Полученные результаты открывают перспективы для новых проектов, включая:

  • Контроль стандартов обслуживания в HoReCa
  • Анализ речевых скриптов персонала
  • Мониторинг санитарных норм
  • Выявление нарушений торгового пространства

Особенность решения – интеграция аудио и визуальных данных в единый аналитический контур, что делает его одним из первых коммерчески ориентированных мультимодальных продуктов на рынке.

TRASSIR и AIRI планируют дальнейшее развитие интеллектуальных систем видеоанализа с элементами адаптивного обучения.

Ссылка на основную публикацию