ИТ-портал компании «Инфосистемы Джет»

Контуры промышленности: объединяй, оптимизируй

Контуры промышленности: объединяй, оптимизируй

Ниже мы затронем специфическую и при этом крайне актуальную для российской промышленности тему.  Дело в том, что на наших предприятиях довольно распространена схема реализации ИТ-инфраструктуры, при которой офисные приложения и приложения, управляющие производством, полностью разделены — зачастую буквально стеной в дата-центре. В прошлом это было приемлемым вариантом, но с течением времени недостатки такого подхода стали все сильнее сказываться на эффективности бизнес-процессов. Дублирование инфраструктурной части, жесткое разделение регламентов ИТ-процессов промышленного и корпоративного блоков, трудности в обмене данными между ними — все это приводит к поиску более оптимальных и эффективных решений.  

Один из вариантов — это консолидация всех приложений на общей виртуализированной платформе с сохранением изоляции на сетевом уровне. Подобный проект мы реализовали на автомобилестроительном предприятии с непрерывными конвейерными линиями. Конвейерное производство подразумевает повышенные требования к надежности ИТ-комплекса предприятия и уровню его обслуживания. Линия работает непрерывно, в три смены, и любой простой, выходящий за рамки предусмотренных регламентами величин, влечет за собой значительные убытки. Период автономной работы заводского конвейера заказчика не превышает несколько десятков минут, и любой технический сбой, включая выход из строя ИТ-систем, должен устраняться за это время.

При этом существующая на предприятии ИТ-инфраструктура не обеспечивала нужного уровня резервирования основных систем и не имела достаточного количества механизмов защиты. Один ЦОД отвечал за функционирование нескольких десятков разнородных ИТ-сервисов, по большей части существовавших, что называется, в единственном экземпляре и работавших на физических серверах. Используемые компанией приложения не имели встроенных механизмов обеспечения высокой доступности и отказоустойчивости. Таким образом, при аварии время восстановления практически полностью зависело от квалификации дежурного инженера. Заказчик хотел устранить эти недостатки и сделать все возможное для предотвращения простоев в случае аварий.

Было решено объединить инфраструктуру корпоративных и производственных приложений, построив для них единую платформу высокой доступности. При этом нужно было сохранить их полное логическое разделение, внедрить инструменты мониторинга и управления мощностями, а также обеспечить гарантированное время восстановления критичных функций (RTO).

Контроль, защита и восстановление

На базе двух площадок мы создали отказоустойчивую платформу, которая включает в себя виртуальные фермы, кластеры баз данных, СХД и СРК. На логическом уровне платформа разделена на 3 части с помощью виртуального межсетевого экрана (МСЭ). МСЭ обеспечивает сетевую изоляцию офисных приложений, промышленных систем и общей для них инфраструктурной части, куда относятся системы мониторинга, резервного копирования и единые базы данных.

На платформе реализована система защиты данных от возможных программных и аппаратных сбоев. Для этого используются механизмы регулярного резервного копирования, журналирования изменений в дисковых массивах с возможностью восстановления состояния систем на определенный момент времени, зеркалирования данных между площадками и репликации виртуальных машин с заданной задержкой (несколько минут, с небольшой допустимой потерей данных).

Заказчик может использовать индивидуальный набор механизмов защиты для каждой системы в зависимости от критичности конкретного сервиса. Таким образом, можно менять уровень обслуживания каждого из нескольких десятков сервисов.

Состояние платформы непрерывно контролируется с помощью комплекса мониторинга. Он отслеживает статус серверного оборудования, виртуальных машин, системы хранения данных, сетевой инфраструктуры и работоспособность кластеров высокой доступности. В основе системы мониторинга лежит «сквозная» модель здоровья, позволяющая в любой момент времени дать ответ на вопрос, обеспечивается ли высокая доступность всех ИТ-сервисов предприятия, и если нет, то почему. В ее рамках для каждого компонента инфраструктуры были определены ключевые параметры штатного функционирования и способы их мониторинга, заданы взаимозависимости между ними. Соответствие заданным значениям говорит о «здоровье» всей платформы, то есть о поддержании необходимого уровня доступности.

Система мониторинга позволяет наблюдать за уровнем производительности всей ИТ-инфраструктуры и ее отдельных элементов, за функционированием критически важного ПО и систем управления базами данных, своевременно выявлять неисправность оборудования. Кроме того, она дает возможность оценивать уровень утилизации ресурсов платформы и оптимизировать их применение. На выходе все это обеспечивает максимально рациональное использование ИТ-ресурсов и сводит к минимуму периоды простоя.

Помимо мер поддержания доступности платформы, мы детально проработали и протестировали 17 регламентов аварийного восстановления работоспособности платформы в различных ситуациях. Регламенты включают в себя пошаговые инструкции по проведению диагностики и устранению неисправностей в жестко заданных временных рамках.

Каждый план восстановления работоспособности проходил многоэтапное тестирование с привлечением специалистов предприятия. По итогам предварительных тестирований проводилась оптимизация — до достижения заданных временных показателей. Наличие четких регламентов устраняет жесткую зависимость предприятия от присутствия на месте высококвалифицированного профильного специалиста в момент возникновения аварии. Это также гарантирует своевременное восстановление работы ИТ-систем практически в любой ситуации.

***

Для производственных предприятий с непрерывным производством стремление к консолидации производственного и корпоративного контуров объясняется необходимостью повышения эффективности ключевых бизнес-процессов и снижения затрат на инфраструктуру. При этом остается необходимость в разделении составляющих на логическом уровне — из соображений информационной безопасности. Сохранение физически разделенных систем создает двойную нагрузку на предприятие в плане администрирования, поддержки и обслуживания. Единая виртуализированная платформа с высоким уровнем доступности, безопасности и проработанными регламентами аварийного восстановления — это наиболее рациональный вариант решения задачи. Он позволяет снизить расходы на ИТ и гарантированно защититься от сбоев, которые могут повлиять на работу конвейера.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su