x
© 1995-2019 Компания «Инфосистемы Джет» Разработано в Liqium
Вычислительные комплексы Интернет вещей — технологии меняющие бизнес

401

0.

12

0

3

Интернет способен на все: так считает и простой обыватель, и хайтек-аналитик международного уровня. В консалтинговой компании McKinsey подсчитали, что в Китае до 22% увеличения ВВП к 2025 г. может произойти за счет интернет-технологий. В США ожидаемый прирост стоимости, создаваемый цифровыми технологиями, к 2025 г. может составить
1,6–2,2 трлн долларов. Причина в том, что наступающая цифровая экономика ломает привычные модели отраслевых рынков

Цифровые компании по мере роста активно захватывают смежные направления, среди которых оказывается и офлайновый бизнес. Так, Amazon.com стал провайдером, предоставляющим облачные и логистические услуги, Google занялся беспилотными авто, Uber — доставкой еды, Salesforce — услугами телемедицины. General Motors развивает райдшеринг (сервис попутчиков), а операторы связи — видеонаблюдение. Китайский розничный интернет-магазин AliExpress.com нашел совсем оригинальный способ развития бизнеса: он собирается открыть в 11 городах России 121 магазин, причем построить их в формате виртуальной реальности.

В этом эксперты усматривают серьезный тренд: если десятилетие до 2015 г. можно считать периодом бурного роста технологических стартапов, то следующая декада — до 2025 г., как ожидается, станет периодом трансформации крупных традиционных компаний в цифровых гигантов. Первая волна крупных нетехнологических компаний начинает всерьез воспринимать технологическое лидерство как обязательное условие стабильного роста. Цифровая модернизация предприятий традиционной экономики, похоже, имеет все шансы изменить структуру ИТ-отрасли.

Одно из самых мощных направлений цифровой модернизации связано с внедрением технологий Интернета вещей (Internet of Things, IoT), которые превращают все элементы рабочих процессов предприятий (станки, склады, офисы, готовая продукция и комплектующие, персонал и т.д.) в управляемые цифровые ресурсы. Фактически концепция IoT отражает идею всеобщей связанности всего сущего в мире и держится на трех слонах: сенсорные технологии, телекоммуникации, облачные вычисления.


Технологии сбора и обработки данных, получаемых с датчиков промышленного оборудования, не являются чем-то принципиально новым — такие системы работали еще в 1980-е гг. Традиционно они представляли собой закрытые автоматизированные системы, жестко нацеленные на выполнение конкретных задач. Революционная суть современной информатизации нашла выражение, в частности, в резком уменьшении стоимости датчиков, миниатюризации и снижении их энергопотребления, а также в упрощении схемы подключения. Эти новации дали мощный импульс росту номенклатуры цифровых сенсоров, видов генерируемых данных и всему сегменту умных систем управления разнообразным оборудованием: в заводских цехах, домах, офисах, на городских улицах и т.д.


Дальнейшая трансформация сетей датчиков в IoT в мире стала возможна благодаря достижениям в других областях высоких технологий: снижению стоимости вычислительных мощностей и сетей передачи данных, развитию облачных технологий и математических методов обработки больших массивов данных (Big Data).

Технологические предпосылки IoT:

  • Снижение стоимости вычислительных мощностей
    Удешевление процессоров, памяти и систем хранения данных.
  • Развитие облачных технологий и Big Data
    Данные технологии позволяют иметь гибкую систему хранения и анализа данных в условиях постоянного увеличения объема.
  • Снижение стоимости передачи данных
    Снижение затрат позволяет перенаправить средства на инвестиции в большие процессинговые системы.
  • Быстрое увеличение количества устройств
    Количество сенсоров и «подключенных» устройств увеличивается.

 

Результат налицо. Радиометки активно заселяют фабрики и магазины — с их помощью будет отслеживаться жизненный цикл производства и продажи товаров, а также данные экологической обстановки, ведут видеонаблюдение, следят за состоянием железнодорожного полотна, посевов на полях и миграцией животных. Полученные сведения передаются на обработку следующему элементу информационной системы, для этого все оцифрованные вещи IoT снабжаются интерфейсом для коммуникаций с другими системами.

«Интернет вещей»
 БИЗНЕС И ТЕХНОЛОГИЧЕСКИЕ ПРОЦЕССЫ
ИТ-ИНФРАСТРУКТУРА
«умные решения» Разрешенные системы
Как сейчас
Связаны «через бумагу»
Разрешенные системы
Как сейчас
Связаны «через бумагу»
Разрешенные системы

 

 

 

 

В качестве математической метрики, которую оптимизируют алгоритмы машинного обучения (функция потерь), используют разность между предсказанием модели и истинным значением. Но если за метрику взять сумму отклонений, при одинаковом количестве отклонений в обе стороны, эта сумма будет равна нулю и не покажет реальной ошибки. Поэтому обычно используют среднюю абсолютную (сумма абсолютных значений отклонений) или среднюю квадратичную ошибку (сумма квадратов отклонений от истинного значения). Иногда рассматривают более сложную формулу, логарифмируя или извлекая квадратный корень из этих сумм. Все эти метрики могут показать, как стала считать модель: лучше или хуже, — но для их использования этот результат надо еще с чем-то сравнить.

Хорошо, когда есть уже построенная модель и можно сравнить с ней. А что делать, если модель строится впервые? В этом случае часто используют коэффициент детерминации, или R2. Коэффициент детерминации выражается как единица минус отношение средней квадратичной ошибки модели к средней квадратичной ошибке среднего значения тестовой выборки.

Иными словами, коэффициент отвечает на вопрос, насколько модель лучше предсказывает. Отметим, что иногда ошибка в одну сторону неравнозначна ошибке в другую. Например, в модели, предсказывающей заказ товара на склад магазина, заказать чуть больше не страшно — он останется на складе, а вот нехватка товара приведет к потере покупателей. В этом случае используют квантильную ошибку, где положительные и отрицательные отклонения от истинного значения учитывают с разными весами.

Мировой объем трафика дата-центров, зеттабайт

Реклама

Пример: если из 100 застрахованных страховой случай происходит только у 7, модель, которая просто предсказывает всем отсутствие страхового случая, будет иметь точность 93%, не имея никакой предсказательной силы.

В зависимости от специфики задачи рассматривают метрики полноты (количество правильно определенных объектов класса среди всех объектов данного класса) и точности (количество правильно определенных объектов класса среди всех объектов, которые данная модель отнесла к данному классу). Если стоит задача учитывать одновременно полноту и точность, рассматривают среднее гармоническое между этими величинами (F1-мера).

Мировой объем трафика дата-центров, зеттабайт

Данные метрики позволяют оценивать уже состоявшееся разбиение по классам, а большинство моделей предсказывают вероятность отношения модели к определенному классу. И в этом разрезе можно варьировать порог вероятности, относительно которого будут определяться элементы в один или другой класс (например, клиентов, которые уходят с вероятностью менее 70%, считаем остающимися). Если конкретный порог не задан, чтобы учитывать эффективность модели, рисуют график зависимости метрик от разного порога (ROC-кривая или PR-кривая [1]) и в качестве метрики рассматривают площадь под этой кривой (рис. 3).

Бизнес-метрики

Если снова обратиться к названию нашей статьи, то можно провести следующую аналогию: метрики бизнеса похожи на слонов, их невозможно не заметить, они довольно понятны, но при этом в одном «слоне» от бизнеса может.

Используются промежуточные метрики, например:

  • количество дней, которые товар лежит на складе, и количество запросов товара, когда его не оказалось;
  • количество денег, которыми обладают клиенты, собирающиеся уйти;
  • количество материала, которое экономится в процессе производства.

Данные метрики позволяют оценивать уже состоявшееся разбиение по классам, а большинство моделей предсказывают вероятность отношения модели к определенному классу. И в этом разрезе можно варьировать порог вероятности, относительно которого будут определяться элементы в один или другой класс (например, клиентов, которые уходят с вероятностью менее 70%, считаем остающимися). Если конкретный порог не задан, чтобы учитывать эффективность модели, рисуют график зависимости метрик от разного порога (ROC-кривая или PR-кривая [1]) и в качестве метрики рассматривают площадь под этой кривой (рис. 3).

Мировой объем трафика дата-центров, зеттабайт

2,4

Миллионов рублей вложено в ИТ бизнес в 2019г

Последние два года выдались для сферы ИБ особенно напряженными. Мир столкнулся с волной массовых атак вирусов - шифровальщиков

2,4

Миллионов рублей вложено в ИТ бизнес в 2019г

Последние два года выдались для сферы ИБ особенно напряженными. Мир столкнулся с волной массовых атак вирусов - шифровальщиков

2,4

Миллионов рублей вложено в ИТ бизнес в 2019г

Последние два года выдались для сферы ИБ особенно напряженными. Мир столкнулся с волной массовых атак вирусов - шифровальщиков

Екатерина Сюртукова

Руководитель направления сервиса и аутсорсинга ИБ Центра информационной безопасности компании «Инфосистемы Джет»

Комментарий

Услуги Jet CSIRP по подключению к ГосСОПКА

Данные метрики позволяют оценивать уже состоявшееся разбиение по классам, а большинство моделей предсказывают вероятность отношения модели к определенному классу. И в этом разрезе можно варьировать порог вероятности, относительно которого будут определяться элементы в один или другой класс (например, клиентов, которые уходят с вероятностью менее 70%, считаем остающимися). Если конкретный порог не задан, чтобы учитывать эффективность модели, рисуют график зависимости метрик от разного порога (ROC-кривая или PR-кривая [1]) и в качестве метрики рассматривают площадь под этой кривой (рис. 3).

Для выполнения требований № 187-ФЗ необходимо:

Если из 100 застрахованных страховой случай происходит только у 7, модель, которая просто предсказывает всем отсутствие страхового случая, будет иметь точность 93%, не имея никакой предсказательной силы.

В зависимости от специфики задачи рассматривают метрики полноты (количество правильно определенных объектов класса среди всех объектов данного класса) и точности (количество правильно определенных объектов класса среди всех объектов, которые данная модель отнесла к данному классу). Если стоит задача учитывать одновременно полноту и точность, рассматривают среднее гармоническое между этими величинами (F1-мера).

Трудности перевода

Для оптимизации моделей удобно использовать метрики машинного обучения, которые не находят понимания у бизнеса.

 

Довольно сложно транслировать площадь под ROC-кривой модели определения тональности комментария в конкретные суммы выручки. В этом смысле перед бизнесом встают две задачи: как измерить эффект? как максимизировать эффект? С первой задачей все несколько проще, при наличии ретроспективных данных и при условии, что остальные факторы можно нивелировать или измерить.

В этом случае получаемые значения сравнивают с аналогичными ретроспективными данными. Но и здесь есть проблема: с одной стороны, выборка должна быть репрезентативной, а с другой — максимально похожей на ту, на которой происходит апробация модели.

 

Пример: мы должны найти наиболее похожих клиентов, чтобы убедиться, что средний чек у них увеличился, но при этом клиентов должно быть достаточно, чтобы избежать выбросов, т.е. нестандартного поведения. Для решения этого вопроса можно заранее зафиксировать достаточно большую группу близких друг к другу клиентов и оценивать результат на ней в целом. Но тут встает вопрос: как перевести выбранную метрику в функцию потерь (минимизацией которой и занимается модель) для машинного обучения? Этот процесс может быть долгим — он требует погружения разработчиков моделей в бизнес-процессы. Но если в обучении использовать метрику, зависящую от бизнеса, качество моделей сразу вырастает. Например, если модель предсказывает уходящих клиентов, в качестве бизнес-метрики можно использовать график, где по одной оси отмечено количество клиентов, работать с которыми советует модель, а по другой — общее количество денег, которое эти клиенты должны увести.

 

С помощью такого графика бизнес-заказчик может выбрать удобную для себя точку и работать с ней. Этот график линейными преобразованиями сводится к PR-кривой (кривой, где по осям отмечены точность и полнота), что оптимизирует площадь под этой кривой одновременно с бизнес-метрикой.

При этом некоторые классы могут быть хорошо различимы между собой, а некоторые нет. После построения классификаторов можно понять, каких пользователей модель умеет отличать, и уже ставить перед бизнесом задачу: как работать с такими пользователями (теми, кого мы научились отличать).

Следите за нашими обновлениями

Спасибо!
Ваш материал отправлен.
Мы с вами свяжемся
Предложить
авторский материал
Спасибо!
Вы подписались на обновления наших статей
Подписаться
на рубрику
Спасибо!
Ваша заявка отправлена.
Мы с вами скоро свяжемся.
Оформить
подписку на журнал
Спасибо!
Вы подписались на наши новости.
Оформить
подписку на Новости
Ваш комментарий отправлен.
После прохождения модерации комментарий будет опубликован на сайте.
Оставить
комментарий
Спасибо!
Ваша заявка отправлена.
Мы с вами скоро свяжемся.
Задать вопрос
редактору

Оставить заявку

Мы всегда рады ответить на любые Ваши вопросы

* Обязательные поля для заполнения

Спасибо!

Благодарим за обращение. Ваша заявка принята

Наш специалист свяжется с Вами в течение рабочего дня