Эффективная реализация ИТ инфраструктуры в промышленности

Ниже мы затронем специфическую и при этом крайне актуальную для российской промышленности тему. Дело в том, что на наших предприятиях довольно распространена схема реализации ИТ-инфраструктуры, при которой офисные приложения и приложения, управляющие производством, полностью разделены — зачастую буквально стеной в дата-центре. В прошлом это было приемлемым вариантом, но с течением времени недостатки такого подхода стали все сильнее сказываться на эффективности бизнес-процессов. Дублирование инфраструктурной части, жесткое разделение регламентов ИТ-процессов промышленного и корпоративного блоков, трудности в обмене данными между ними — все это приводит к поиску более оптимальных и эффективных решений.

Один из вариантов — это консолидация всех приложений на общей виртуализированной платформе с сохранением изоляции на сетевом уровне. Подобный проект мы реализовали на автомобилестроительном предприятии с непрерывными конвейерными линиями. Конвейерное производство подразумевает повышенные требования к надежности ИТ-комплекса предприятия и уровню его обслуживания. Линия работает непрерывно, в три смены, и любой простой, выходящий за рамки предусмотренных регламентами величин, влечет за собой значительные убытки. Период автономной работы заводского конвейера заказчика не превышает несколько десятков минут, и любой технический сбой, включая выход из строя ИТ-систем, должен устраняться за это время.

При этом существующая на предприятии ИТ-инфраструктура не обеспечивала нужного уровня резервирования основных систем и не имела достаточного количества механизмов защиты. Один ЦОД отвечал за функционирование нескольких десятков разнородных ИТ-сервисов, по большей части существовавших, что называется, в единственном экземпляре и работавших на физических серверах. Используемые компанией приложения не имели встроенных механизмов обеспечения высокой доступности и отказоустойчивости. Таким образом, при аварии время восстановления практически полностью зависело от квалификации дежурного инженера. Заказчик хотел устранить эти недостатки и сделать все возможное для предотвращения простоев в случае аварий.

Для этого требовалось объединить корпоративный и производственный ИТ-контуры, построив единую платформу высокой доступности. При этом нужно было реализовать их логическое разделение, обеспечить инструменты контроля и планирования, а также гарантированное время восстановления критичных функций (RTO).

Контроль, защита и восстановление

На базе двух площадок мы создали отказоустойчивую платформу, которая включает в себя виртуальные фермы, кластеры баз данных, СХД и СРК. На логическом уровне платформа разделена на 3 части с помощью виртуального фаервола. Фаервол обеспечивает программную изоляцию офисных приложений, промышленных систем и общей для них инфраструктурной части, куда относятся системы мониторинга, резервного копирования и единые базы данных. На платформе реализована система защиты данных от возможных программных и аппаратных сбоев. Для этого используются механизмы регулярного резервного копирования, журналирования изменений в дисковых массивах с возможностью восстановления состояния систем на определенный момент времени, зеркалирования данных между площадками и репликации виртуальных машин. Заказчик может использовать индивидуальный набор механизмов защиты для каждой системы в зависимости от важности конкретного сервиса. Таким образом, можно менять уровень обслуживания каждого из нескольких десятков сервисов.

Состояние платформы непрерывно контролируется с помощью комплекса мониторинга. Он отслеживает статус виртуальных машин, системы хранения данных и всей сетевой инфраструктуры. В качестве дополнительного инструмента обеспечения высокой доступности используется специально разработанная система анализа состояния ключевых технологических блоков на соответствие контрольным показателям — так называемая сквозная модель здоровья. В ее рамках для каждого компонента инфраструктуры были определены ключевые параметры штатного функционирования и способы их мониторинга, заданы взаимозависимости между ними. Соответствие заданным значениям говорит о «здоровье» всей платформы, то есть о поддержании необходимого уровня доступности.

Система мониторинга позволяет наблюдать за уровнем производительности всей ИТ-инфраструктуры и её отдельных элементов, функционированием критически важного ПО и систем управления базами данных, своевременно выявлять неисправность оборудования. Кроме того, она дает возможность оценивать уровень утилизации ресурсов платформы и оптимизировать их применение. На выходе всё это обеспечивает максимально рациональное использование ИТ-ресурсов и сведение к минимуму периодов простоя.

Помимо мер поддержания доступности платформы, мы детально проработали и протестировали 17 регламентов аварийного восстановления работоспособности платформы в различных ситуациях. Регламенты включают в себя пошаговые инструкции по проведению диагностики и устранению неисправностей в жестко заданные временные рамки.

Каждый план восстановления работоспособности проходил многоэтапное тестирование с привлечением специалистов предприятия. По итогам предварительных тестирований проводилась оптимизация, пока мы не выходили заданные временные показатели. Наличие четких регламентов устраняет жесткую зависимость предприятия от присутствия на месте высококвалифицированного профильного специалиста в момент возникновения аварии. Это также гарантирует своевременное восстановление работы ИТ-систем практически в любой ситуации.

Вывод

Для производственных предприятий с непрерывным производством стремление к консолидации производственного и корпоративного контуров объясняется необходимостью повышения эффективности ключевых бизнес-процессов и снижения затрат на инфраструктуру. При этом остается необходимость в разделении составляющих на логическом уровне — из соображений безопасности. Сохранение физически разделенных систем создает двойную нагрузку на предприятие в плане администрирования, поддержки и обслуживания. Единая платформа с высоким уровнем виртуализации, доступности, безопасности и проработанными регламентами аварийного восстановления — это наиболее рациональный вариант решения задачи. Он позволяет снизить расходы на ИТ и гарантированно защититься от сбоев, которые могут повлиять на работу конвейера.

Контуры промышленности: объединяй, оптимизируй

Авторы

Авторы

Теги

Другие статьи автора

Статьи по теме

Контроль, защита и восстановление

Вывод

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

О чем говорили участники конференции «Российская электроника»

Индустрия 4.0. Кибербезопасность: вызовы и решения

TECH WEEK 2022: инновации и тренды

Цифровая нефть

Когда именно предприятие становится цифровым?

Мошенничество в промышленности: фрод ближе, чем вы думаете

Экономика и оптимизация: что получит компания от внедрения IIoT

ИТ-консалтинг

Segezha Group: «Запускать пилоты и не бояться неудач»

Оставить заявку

Спасибо!

Контуры промышленности: объединяй, оптимизируй

Авторы

Авторы

Теги

Другие статьи автора

Статьи по теме

Поделиться

Контроль, защита и восстановление

Вывод

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

Оставить заявку

Спасибо!