Оссобенности и среды анализа Big Data в ML-проектах

Почему традиционные СУБД не подходят для анализа Big Data?

Что дает использование Cloudera Data Platform?

Подробности создания Data Lake для Группы НЛМК

Цифровизация подразумевает использование в промышленности ряда прорывных технологий: Интернета вещей, больших данных, искусственного интеллекта, моделирования и предиктивной аналитики, робототехники. Такой порядок перечисления не случаен. Эти технологии являются сквозными, слово крайне удачно отражает принцип их реализации на предприятиях.

Технология Интернета вещей включает в себя все источники информации, способные передавать ее по цифровым каналам связи. Это системы управления производственными процессами (MOS/MES) и жизненным циклом продукции (PLM), камеры видеонаблюдения, да и в общем вся «сенсорика». Естественно, все они порождают большое количество разнородных, сырых данных (десятки или сотни терабайт). Эти «органы чувств» предприятия нуждаются в мозге, который готов сохранить, обработать информацию и заметить в ней главное, чтобы можно было принять важное решение вовремя и правильно.

На заметку

Сырые данные могут быть неструктурированными (изображения, текст, аудио), слабо структурированными (логи пользовательской активности, данные с датчиков на производстве) и структурированными (разнородные реляционные базы данных и таблицы).

Традиционные системы хранения и анализа данных — монолитные корпоративные СУБД — не могут с этим справиться. Помещать в них все логи и разрабатывать множество схем данных долго и дорого. А если вложение не окупится? Как быть, если потенциальный прирост данных не был оценен правильно? Их неожиданно стало гораздо больше, или увеличение, напротив, оказалось не столь значительным. Как не переплатить? Другими словами, использование традиционных СУБД из-за высокой стоимости и продолжительности проекта может свести на нет экономическую эффективность цифровизации.

Это «поле для игры» в большие данные и машинное обучение. Внедрение подобных технологий способно повысить производительность труда в компаниях на 40%. В ближайшем будущем их использование будет определять международную конкурентоспособность и отдельных компаний, и целых стран.

Например, мы в проектах используем фреймворк Hadoop, файловую систему HDFS, СУБД Apache Hive. Этот инструментарий обеспечивает хранение, обработку и анализ сотен терабайт данных компаний — наших заказчиков из различных отраслей: металлургии, телекоммуникационного сектора, финансов и даже образования.

Важно, что затраты на создание подобных систем невелики. Во-первых, ПО для обработки Big Data может работать на типовых и, как следствие, недорогих серверах. Наша команда за последние пару лет строила кластеры с двумя, пятью и десятками рабочих узлов, на всех них стояло одинаковое ПО. В основе рабочего узла лежит типовой сервер, может быть, даже предыдущего поколения или совсем утративший актуальность. Но вместе они обеспечивают надежное хранение и анализ за требуемое время, что может быть недоступно самым современным и дорогим программно-аппаратным комплексам.

Во-вторых, все ключевые продукты имеют открытые исходные коды и возможность собственной сборки, свободной от дорогого лицензирования. Это исключает монополизирование технологий, что соответствует требованиям российского законодательства и позволяет использовать их в государственном секторе.

Конечно, ряд технологий больших данных и машинного обучения можно «просто» скачать, собрать и установить. Но мы не рискуем инфраструктурой заказчиков и работаем с решениями корпоративного уровня от наших партнеров — Cloudera, Huawei и российской Arenadata.

Некоторые наиболее интересные проекты мы опишем ниже.

В 2017–2018 гг. на основе платформы Cloudera мы разработали решения, прогнозирующие выкуп товаров из корзин пользователей и выявляющие значимые для покупателей характеристики продукции, для одного из российских ритейлеров бытовой техники и электроники. Создание подобных систем требует консолидации множества источников информации. По сути, это разнородные и достаточно большие данные (в том числе пользовательские сессии, отзывы и комментарии). Мы разработали ЕLT-системы (Extract, Load, Transform) для множества неструктурированных источников. Полученные таким образом данные стали основой для data lake.

В 2019 г. мы разработали для Группы НЛМК систему анализа данных и моделирования (САДиМ). Это платформа data lake. Она позволяет сохранять и предоставлять информацию о производственных и технологических процессах ML-моделям. Также она помогает разрабатывать другие цифровые сервисы, предоставляет инструментарий для вычислений и анализа.

Евгений Колесников

Руководитель Центра машинного обучения компании «Инфосистемы Джет»

Комментарий

Объем Big Data на предприятиях растет, поскольку заказчики начинают видеть цену этих данных. Их основной источник — сенсоры и датчики, передающие информацию несколько раз в секунду. Затем эти данные аккумулируются и усредняются — например, записывается средний показатель за минуту. Но усреднения являются довольно грубыми, их недостаточно. И предприятия начинают записывать данные чаще: 2 раза в минуту, 10 раз в минуту, каждую секунду. В итоге доходят до сырых данных. Для их хранения требуется очень большой объем, потому и используются решения вроде САДиМ. Когда сырые данные поступают в неагрегированном виде прямо из источника, это дает прирост с точки зрения точности ML-моделей. А каждый процент прироста — конкретные деньги.

В цехах предприятия десятки систем накапливают и обрабатывают информацию о производственных и технологических процессах. Кроме того, в помещениях установлены тысячи датчиков. Они непрерывно собирают и передают данные. Подразделение Data Science НЛМК хотело получить инструмент для работы с данными, которые используются в ML-моделях.

Мы вместе с командой НЛМК создали data lake (озеро данных) в 300 ТБ на базе Arenadata Hadoop. Также использовали сервисы Apache Kafka, Apache NiFi, Apache Hive.

В data lake загружаются данные из более чем 70 источников (датчики, MES и АСУ ТП). Заказчик также загрузил в него исторические данные за несколько лет и разработал карты данных технологических и производственных процессов отдельных цехов.

В НЛМК мы:

разработали модель витрины данных и процессы загрузки в нее;
реализовали управление метаданными, использовав Apache Atlas (тегирование, поиск и т.д.);
настроили централизованную ролевую модель и ее интеграцию с Active Directory.

В результате дата-саентисты оперативно получают доступ к данным в Data Lake.

Отметим, что тяжелая промышленность, в том числе металлургия, — основной потребитель решений, подобных САДиМ. Дело в том, что металлургия подразумевает многозвеньевую производственную цепочку. На каждом участке генерируется добавленная стоимость. Если вы оптимизируете по 3–5% в каждом звене, на выходе будет существенная выгода.

Во всех подобных проектах мы сталкиваемся с огромными объемами циркулирующей в производстве информации. Она не используется для оптимизации процессов именно из-за отсутствия инфраструктуры для хранения и обработки данных. Предыдущий опыт часто вводит заказчиков в заблуждение в отношении того, что корпоративная платформа хранения Big Data — это дорого и трудоемко. Но мы предлагаем уже готовые архитектурные решения. Зачастую они являются основой для работы ML-систем. Так, разработанные нами для промышленных предприятий ML-модели предсказывают брак и идентифицируют его причины, оптимизируют расходы производства, предсказывают выход из строя оборудования или его узлов.

С 2020 г. мы внедряем технологии больших данных и машинного обучения на платформе облачных сервисов Mail.Ru Group. Это обеспечивает быстрый старт проекта и экономию, а также позволяет адаптировать работу под требования российского законодательства (№ 152-ФЗ).

ML-платформа от Cloudera

Сегодня компании хотят не просто внедрить платформу хранения данных. Им нужно решение под ключ — стек технологий для создания и внедрения ML-систем, витрин данных и анализа Big Data. Мы вместе с Cloudera предлагаем подобную ML-платформу, которая реализует концепцию озера данных, — Cloudera Data Platform (CDP). Ее архитектура (см. рисунок) включает инструменты машинного обучения и глубокого анализа данных. Также есть виртуализация на базе Kubernetes и Docker, реализованы непрерывные интеграция и доставка (CI/CD).

Изолированные контейнеры с выделенными ресурсами кластера создаются прямо в веб-браузере. Это позволяет сэкономить на DevOps и ускоряет разработку. Благодаря виртуализации платформу одновременно могут использовать несколько больших команд дата-саентистов. При этом они не помешают друг другу и будут иметь доступ ко всем необходимым данным.

«Из коробки» доступны знакомые всем дата-саентистам инструменты Spark, Scala, R, Python и Jupiter, SQL.

На заметку

CDP подходит как для начинающих дата-саентистов, работающих с несколькими терабайтами, так и для зрелых команд, которые имеют дело с данными от сотен различных источников, порождающих петабайты информации.

Как выглядит процесс анализа данных и создания цифрового продукта: используя средства трансформации и загрузки (ETL) из инфраструктуры Big Data (NiFi, Pig или Spark), дата-инженеры готовят витрину данных. Это датасет, который включает данные из различных источников в денормализованном виде. Он облегчает и ускоряет извлечение полезной информации и является основой для работы ML-алгоритмов.

Быстрый старт проекту обеспечивают «готовые рецепты», включенные в платформу. Фреймворк Spark MLlib, библиотеки Scikit-learn, NLTK, Keras и др. содержат алгоритмы, которые позволяют быстро построить вполне рабочую рекомендательную систему или выявить различного рода аномалии. В результате эффект от внедрения Big Data и ML можно получить уже на начальном этапе проекта.

А дальше все, что вам нужно, — добавлять рабочие узлы и искать творческих и упрямых инженеров и исследователей данных.

Анализ Big Data в ML-проектах

Авторы

Почему традиционные СУБД не подходят для анализа Big Data?

Что дает использование Cloudera Data Platform?

Подробности создания Data Lake для Группы НЛМК

Авторы

Теги

Статьи по теме

На заметку

Комментарий

ML-платформа от Cloudera

На заметку

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

Большие Данные = большая проблема?

Маленькая «серебряная пуля»

Крупные компании готовы переносить системы в российские облака

Цифровые недра, или ИТ–инфраструктуру 2025 года пора планировать уже сейчас. Часть 2

Как приручить Большие Данные

EMC Greenplum Database - основа платформы аналитики предприятия

Матрица: эволюция

Гибридная архитектура хранения данных: возможности и сценарии использования

Какие профессии в ИТ будут востребованы в 2021 году

Оставить заявку

Спасибо!

Анализ Big Data в ML-проектах

Авторы

Почему традиционные СУБД не подходят для анализа Big Data?

Что дает использование Cloudera Data Platform?

Подробности создания Data Lake для Группы НЛМК

Авторы

Теги

Статьи по теме

Поделиться

На заметку

Комментарий

ML-платформа от Cloudera

На заметку

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

Оставить заявку

Спасибо!