ИТ-портал компании «Инфосистемы Джет»

Компьютерное зрение: направления и сферы применения

Компьютерное зрение: направления и сферы применения

В настоящее время выделяют несколько направлений развития компьютерного зрения:

• Face recognition — распознавание лиц, эмоций;

• Image recognition — распознавание объектов, товаров или предметов по фото;

• AR (Augmented reality) — дополненная реальность;

• OCR (optical character recognition) — распознавание рукописного, печатного или машинописного текста.

Каждое из них мы подробно рассмотрим ниже.

Британская ассоциация машинного зрения (BMVA) определяет компьютерное зрение как «автоматическое извлечение, анализ и понимание полезной информации из изображения или их последовательности».

Распознавание лиц и эмоций используют в видеоаналитике (сбор контента с видеокамер в режиме real time). Этот сервис активно применяется в сфере безопасности, и не только в аэропортах, но и в частных домах. В преддверии чемпионата мира по футболу московский метрополитен заявил о внедрении технологии распознавания лиц на 60 станциях метрополитена. А smart city используют видеоаналитику в качестве базового инструмента для анализа ситуации на дорогах, повышения уровня безопасности на улицах, координации работы экстренных служб.

Крупнейшие ритейлеры разрабатывают проекты, в рамках которых на основе видеоаналитики с применением Big Data можно сформировать портрет потребителя и сделать клиенту персонифицированное предложение.

В момент посещения магазина покупателя идентифицируют, и при согласии на получение персонального предложения его будут уведомлять об индивидуальных скидках или бонусах. Это должно повысить уровень лояльности и качество скидок для клиента.

Например, один из крупных российских ритейлеров с помощью видеоаналитики и тепловых карт планирует оценивать самые выгодные места в магазинах с точки зрения выкладки товара и размещения рекламы о продуктах, чтобы повысить уровень комфорта для покупателей и средний чек покупки.

Данная технология широко применима и в банковском скоринге, и в индустрии красоты и косметики, при оценке эмоционального состояния покупателя.

Аналитики TechNavio Analysis ожидают, что в ближайшие годы среднегодовые темпы роста мирового рынка IP-видеонаблюдения превысят 20%, причем сегмент услуг видеонаблюдения и видеоаналитики будет развиваться опережающими темпами.

Уровень автоматизации и роботизации в России стимулируют несколько факторов:

дефицит человеческих ресурсов, так называемая демографическая яма;

 высокая текущая себестоимость производства, что не позволяет нам конкурировать на глобальном рынке;

отсутствие прозрачной системы управления, что является почвой для злоупотреблений.

IR (image recognition)

Направление, которое сейчас активно развивается в ритейле. Еще в 2014 г. компании Coca-Cola и Trax заявили о начале применения в России технологии распознавания товара на полке при помощи компьютерного зрения. С помощью решения, встроенного в SFA (Sales Force Automation System) — приложение для мерчендайзеров и торговых представителей, в режиме реального времени можно измерить такие показатели, как доля полки (своя и конкурентов), сопоставить планограмму, оценить качество выкладки и определить уровень OSA (On Shelf Availability). Данные агрегировали по всей сети дистрибуции, в качестве сформированного отчета в течение нескольких минут они были доступны для анализа ситуации в сети продаж.

В 2016 г. сразу несколько российских компаний заявили о разработках в области IR. В частности, компания Intelligence Retail (резидент Сколково) подписала соглашение о пилоте с компанией Danone в области распознавания.

Применение данной технологии позволит как минимум на 40% сократить время визита торгового персонала в места продаж, повысит уровень OSA на 15% и более, а значит, поможет нарастить товарооборот на 3–5 процентных пунктов.

Целевая модель распознавания товара на полке — это работа со стационарной видеокамеры.

В течение дня в определенное время полку фотографируют, а затем сопоставляют полученные данные с планограммой, при обнаружении отклонений на компьютер директора приходит уведомление (alert), что позволяет оперативно обновлять полку и следить за наличием товара.

У решения есть неоспоримые плюсы: оперативный контроль, получение данных в режиме реального времени, снижение злоупотреблений со стороны персонала и повышение эффективности использования полочного пространства, не говоря уже о довольных покупателях, которые всегда находят любимый товар.

Однако пока внедрение решения осложняется высокими капитальными затратами на установку оборудования (видеокамер), к тому же необходимо будет изменить некоторые внутренние бизнес-процессы магазина. Есть проблема и в обучении нейронных сетей. В среднестатистической сети порядка 40 000 тысяч наименований товара. Для того чтобы обучить сеть, потребуется порядка 400 изображений (можно взять изображение полки) на одно наименование, что, конечно, несет колоссальные затраты и с точки зрения ресурсов, и с точки зрения трудоемкости сбора материала.

Технология станет максимально доступной, когда нейронная сеть сможет самостоятельно генерировать изображения для обучения самой себя. Для этих целей сейчас активно развивается метод так называемых противоборствующих сетей (существует сеть, генерирующая изображения, и сеть-дискриминатор, по разнице мнений которых можно выявить недостатки в обучении и дообучить генерирующую сеть до возможного максимума) или появятся фотобанки для обучения сетей с возможностью «шеринга» изображений между компаниями — производителями данной технологии.

По оценкам экспертов, потенциальный рынок данной технологии в России составляет порядка 5 млрд долларов.

Историческая справка

Прототипы современных нейросетей (свёрточные нейросети) были разработаны в 1980 г.: тогда были созданы роботы, способные более-менее удовлетворительно оценивать окружающий мир и самостоятельно выполнять действия. В середине 1990-х годов появились первые коммерческие системы автоматической навигации автомобилей. Немного позже, в конце ХХ в., удалось разработать эффективные средства компьютерного анализа движений. В 2003 г. появились первые устойчивые результаты в области распознавания лиц, а после этого в индустрии наступило затишье, так как преодолеть порог в 75-процентной точности было очень сложно — технология была дорогой.

Благодаря геймерам и появлению мощных видеокарт CV (Computer vision) с начала 2011 г. человечество сделало квантовый скачок. Появились международные центры по изучению и развитию нейронных сетей: Лаборатория искусственного интеллекта МТИ (MIT Artificial Intelligence Laboratory), UC Berkeley Computer Vision Group, Vision and Autonomous Systems Center Университета Корнеги-Меллона, Stanford Vision Laboratory. А в России — Лаборатория компьютерного зрения Института информационных технологий и Сколковский институт науки и технологий (Сколтех).

Сейчас это направление активно развивают конкурсы разработчиков, например ImageNet, а мировые гиганты Google и Apple заявили о создании центров по разработке глубинных нейронных сетей.

AR/VR (Augmented reality/Virtual reality)

Большой потенциал среди частных пользователей и крупного бизнеса имеют технологии AR/VR (Augmented reality/Virtual reality) — дополненной реальности. Помимо индустрии развлечений, где эти технологии традиционно пользуются повышенным спросом, в гонку за потребителя включаются торговые центры, строительные компании, дизайнерские студии, сети магазинов по продаже предметов интерьера и одежды.

Вот несколько примеров: виртуальный консультант в торговом зале; виртуальная примерочная (компания «Декатлон» уже запустила пилот со стартапом TRY.FIT); индивидуальная навигация в магазине; персональный дизайн квартиры («Леруа Мерлен Квартира» планирует активно использовать технологии AR для консультации клиентов и презентации интерьерных решений) и др. Мы перечислили только то, что сейчас активно пилотируется и в ближайшее время будет внедряться на рынке.

OCR (optical character recognition)

Наверное, направление OCR (optical character recognition) одним из первых заявило о себе.

Это технология позволяет преобразовывать различные типы документов (отсканированные документы, PDF-файлы или фото с цифровой камеры) в редактируемые форматы с возможностью поиска и распознавания любого формата текста, в том числе рукописного.

Достаточно широкий диапазон применения позволил OCR активно развиваться. Сегодня крупные компании, например ABBY, запустили сервис по распознаванию документов с помощью мобильного приложения, а Google сделал открытый API для разработчиков приложений по распознаванию знаков и надписей.

С помощью данной технологии создают цифровые архивы, переводят бумажные носители в цифровые, включая бухгалтерские и финансовые документы, ищут документы в Сети — при этом нужно только сделать фото требуемого заголовка или автора. В ритейле эту технологию используют для распознавания ценников и повышения качества работы с полкой.

Большую популярность среди пользователей приобрели программы для распознавания рукописного текста, которые позволяют любые записи или формы регистрации автоматически конвертировать в цифровой текст с его дальнейшим использованием. Сложно преодолимой задачей пока видится расшифровка непрерывного рукописного текста, однако спрос на данную технологию так низок, что в ближайшие несколько лет затраты на ее разработку не окупятся.

***

Компьютерное зрение сейчас активно используют в роботехнике, в беспилотных автомобилях, в диагностике и телемедицине, в распознавании онкозаболеваний, при построении 3D-моделей производственных площадок, с его помощью тестируют биометрические способы оплаты во многих странах мира. В России сеть магазинов «Азбука вкуса» тестирует проект оплаты покупок по отпечатку пальца. Специализирующаяся на системах компьютерного зрения и машинного обучения компания VisionLabs, резидент ИТ-кластера Фонда «Сколково», и РТЛабс, дочернее предприятие «Ростелекома», объявили о стратегическом партнерстве и начале разработки инновационного биометрического решения «Безбумажный банк». И это только немногие примеры, которые выявляют лишь небольшую часть от общих возможностей применения CV.

Понятно, что компании при разработке и внедрении новых решений сталкиваются с определенными сложностями. Прежде всего это нехватка квалифицированного персонала (например, специалисты data science одни из самых востребованных и дорогих на сегодняшний день), неготовность бизнеса внедрять новые технологии (риск потери инвестиций, нет очевидных value для бизнеса), высокая стоимость оборудования (видеокамеры с блоком распознавания, оборудование для AR), сложный ИТ-ландшафт компаний.

И все же, по прогнозу Tractica, мировой рынок программного и аппаратного обеспечения в сфере компьютерного зрения увеличится с $6,6 млрд в 2015 г. до $48,6 млрд в 2022 г. при совокупном темпе годового роста 32,9%.

В июле этого года мы заключили соглашение о сотрудничестве с компанией-резидентом Фонда «Сколково» Intelligence Retail. Партнерство позволяет предлагать розничным сетям и производителям товаров комплексное решение по контролю выкладки товаров на базе технологий компьютерного зрения. Intelligence Retail отвечает за развитие продукта, а мы реализуем весь цикл интеграционных работ.

Решение Intelligence Retail представляет собой систему распознавания образов на основе компьютерного зрения, которая может работать как с мобильного приложения, так и со стационарной камеры по SaaS-модели.

Первые пилотные внедрения показали, что с помощью технологии можно на 40% и более ускорить работу мерчендайзеров в торговых точках и на 2–5% увеличить товарооборот сети.

Экспертный комментарий

Павел Асташкин, эксперт группы инженерной поддержки продаж по инженерным системам компании «Инфосистемы Джет»:

Для нормальной работы компьютерного зрения важно не столько разрешение используемой камеры, сколько ее местоположение и сцена, которую она должна отслеживать. Здесь имеет место четкая корреляция: чем больше угол обзора камеры, тем большую сцену она захватит, соответственно, тем больше должно быть разрешение (чем меньше угол, тем дальше камера может «смотреть»). Основной критерий по разрешению, например, для распознавания лиц – 500 пикселей на 1 метр «зрения» камеры.

Если нам нужно распознать лицо на расстоянии 3 метров, то достаточно 2 Мп и среднего угла обзора. Но если мы говорим о стадионах, где нам, например, требуется распознавать болельщиков не только при проходе, но и на трибунах, то нам нужны камеры либо с большим фокусным расстоянием и низким разрешением, либо с большим углом обзора (маленькое фокусное расстояние) и высоким разрешением.

Еще один важный момент: сейчас многие камеры несут аналитику прямо у себя на борту. Они могут, например, вырезать лицо, и на видеосервер пойдет не полная картинка, а только нужный фрагмент. Каналы связи не перегружаются, и серверу не нужно обрабатывать весь кадр.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su