ИТ-портал компании "Инфосистемы Джет"

Оптимизация затрат на инфраструктуру хранения

Оптимизация затрат на инфраструктуру хранения

Непрерывность бизнеса – одно из ключевых условий успешного функционирования любой современной компании. Обеспечению непрерывности уделяется значительное внимание, в том числе и при создании системы хранения данных. Система хранения все еще остается сердцем классической информационной системы. Хотя нельзя не отметить активное развитие облачных решений, как частных, так и публичных, где система хранения если и не полностью скрыта от ИС, то может, как минимум, использовать значительно видоизмененные решения в области хранения. Защищенность данных от аппаратных и программных сбоев напрямую влияет на непрерывность бизнеса. В настоящей статье мы рассмотрим аспекты защиты данных от различных типов сбоев как в классических системах хранения, так и в современных масштабируемых решениях для построения облачной инфраструктуры.

Избыточность

Архитектура СХД определяется прежде всего требованиями к целевым параметрам назначения ИС – параметрами RTO и RPO. В зависимости от этих требований можно подобрать решение с учетом бюджетных ограничений.

Для обеспечения высокой доступности в СХД уже давно применяется дублирование компонентов: избыточные дисковые массивы (RAID), несколько аппаратных контроллеров, множественные пути доступа к данным (MPIO). Эти решения помогают при локальных аппаратных сбоях, они отточены в ходе многолетней практики применения. Думаю, этот вариант обеспечения отказоустойчивости де-факто давно стал стандартом в индустрии и хорошо знаком читателю, поэтому не будем останавливаться на нем подробно.

Репликация

Однако для обеспечения высокой доступности требуется также учитывать риски выхода из строя оборудования в пределах стойки или ЦОД в целом. В таких случаях на помощь приходят технологии репликации – синхронной и асинхронной.

Схема с синхронной репликацией данных за многие годы тоже стала классической. Как правило, синхронная репликация используется в решениях, где расстояние между ЦОД не превышает 100 км. Что касается асинхронной репликации, стоит обратить внимание на то, что она в первую очередь является средством для передачи данных на большие (более 100 км) расстояния, а не более доступной альтернативой синхронной репликации. Причина проста: целевые параметры восстановления зачастую требуют организации каналов с широкой полосой пропускания, что уравнивает стоимость организации каналов в синхронном и асинхронном вариантах. Кроме того, еще до недавнего времени решения многих производителей требовали дополнительных накладных расходов на стороне массива-источника (дополнительная емкость). А применение технологии Copy-On-Write Snapshot, хотя зачастую и скрытое от пользователя, могло значительно влиять на время отклика подсистемы хранения, что негативно сказывалось на производительности ИС.

Впрочем, во многом благодаря бурному развитию Flash-памяти и ее активному применению для хранения данных ИС асинхронная репликация в последнее время становится преимущественным вариантом. Дело в том, что при всех плюсах синхронной репликации в решениях с применением Flash-памяти, где задержки измеряются сотнями микросекунд, фактор задержки в канале является критичным. Никому не понравится, если новый AFA-массив, показывающий результаты по отклику операций ввода-вывода в пределах нескольких сотен микросекунд, при работе с синхронной репликацией вернется к показателям отклика, которые прежде обеспечивал стандартный дисковый массив. Именно по этой причине большинство производителей существенно пересмотрели подход к организации асинхронной репликации, оптимизировав архитектуру с целью минимизации задержек дисковой подсистемы до приемлемого уровня.

Хочу отметить, что мы нисколько не стремимся принизить в глазах читателя подход с применением асинхронной репликации данных. Однако при выборе того или иного подхода рекомендуем тщательно взвесить все «за» и «против», учитывая реальные расходы и особенности конкретного решения.

Один из примеров ситуации, где применение асинхронного подхода полезно, – существенные различия между аппаратными платформами СХД в основном и резервном ЦОД. В этом случае организация репликации на уровне дисковых массивов становится невозможна. Выход – либо виртуализация ресурсов хранения средствами единой платформы виртуализации, либо применение асинхронной репликации данных на блочном уровне средствами программных решений. Последний вариант может оказаться гораздо выгоднее с точки зрения стоимости конечного решения.

Параллельный доступ к данным

Нельзя не обратить внимание на рост популярности подхода с применением СХД, обеспечивающей параллельный доступ к данным в основном и резервном ЦОД. Подобные решения, как правило, требуют виртуализации ресурсов хранения – либо с помощью внешних программно-аппаратных решений, либо средствами самих дисковых массивов. Этот тип решений позволяет размещать ИС на ресурсах кластеров, растянутых между ЦОД, что обеспечивает как минимальное время потери данных (RPO) в случае сбоя, так и сокращение времени восстановления сервисов до таких же значений, как у стандартных технологий локальной кластеризации. Как правило, такие решения основаны на синхронной репликации данных и имеют дополнительные ограничивающие требования к расстоянию между ЦОД, а точнее, к качеству каналов.

В качестве примера такой реализации можно привести архитектуру VMWare Storage MetroCluster, позволяющую не только использовать средства отказоустойчивости платформы виртуализации (VMWare HA), но и динамически распределять ресурсы между ЦОД без остановки (VMWare vMotion Over Distance). В последнем случае мы получаем возможность использовать ОЦОД и РЦОД в режиме Active-Active, что позволяет эффективно использовать инвестиции, вложенные в построение инфраструктуры РЦОД.

При построении такого типа решений необходимо не только приобрести подходящее оборудование, но и внимательно отнестись к организации каналов межплощадочного взаимодействия, а также предусмотреть наличие третьей, кворумной, площадки для разрешения конфликтных ситуаций. Как правило, построение таких решений является комплексной задачей и требует тщательного проектирования. Эти решения подходят для систем, где встроенные механизмы защиты данных отсутствуют, но предъявляются жесткие требования к параметрам восстановления, в первую очередь к RTO.

Выбор конкретного продукта зависит от требований информационных систем. Многие решения способны интегрироваться с системами виртуализации и/или кластеризации серверов для автоматизации переключения на резервную площадку. Часть производителей предоставляет возможность трехзвенной репликации с размещением компонентов СХД в трех ЦОД, что дает максимальную доступность. В сочетании с виртуализацией ресурсов хранения такое решение обеспечивает гибкость: синхронная репликация с параллельным доступом и асинхронная реплика в удаленном ЦОД защитят данные даже при техногенной катастрофе районного масштаба. При этом в случае возникновения сбоев с более простыми сценариями сохраняется возможность быстрого переключения на РЦОД без потери данных.

Резервные копии

Рассмотренные решения предназначены для восстановления сервисов в случае аппаратных сбоев. Однако нарушение целостности данных на программном уровне – ситуация тоже вполне вероятная.

Безусловно, основным средством защиты от логической порчи данных является резервное копирование. В качестве устройств хранения могут использоваться ленточные носители – самые экономичные средства хранения резервных копий, имеющие, однако, ряд особенностей, накладывающих ограничения на их применение. Альтернативные варианты – дисковые устройства с дедупликацией в виде программно-аппаратных комплексов или решения класса Software Defined Storage с дедупликацией. Оба варианта имеют право на жизнь, каждый из них призван решить определённый круг задач.

Особенности ленточных решений на данный момент вполне очевидны: большое пространство, занимаемое в ЦОД; операционные затраты, связанные с хранением выгруженных копий; необходимость регулярной валидации и перезаписи долгосрочных копий; последовательный доступ к устройству хранения и невозможность полной утилизации носителей ввиду особенностей работы с лентой (старые данные замораживаются). Все эти факторы, несомненно, знакомы персоналу, сопровождающему классические СРК. Тем не менее стоимость носителей и увеличение их плотности, а также рекордно низкое энергопотребление делают этот вид хранения резервных копий наиболее доступным. Кроме того, современные ленточные устройства обладают довольно высокой скоростью последовательного доступа и с каждым поколением скорость растёт. Тем не менее, ленточные носители не подходят для задач, требующих оперативного доступа к резервным копиям, а также гранулярного восстановления данных.

Учитывая указанные факторы, достичь полного восстановления данных средствами СРК с ленточных носителей в заданный срок не всегда возможно. В этом случае на помощь могут прийти дисковые устройства. Реальная стоимость хранения напрямую зависит от коэффициента дедупликации данных. По этой причине необходимо подбирать тип дискового решения с учетом типа данных, подлежащих резервному копированию, а также расписания резервного копирования. При высоком коэффициенте дедупликации такие решения для хранения оперативных резервных копий по стоимости могут соперничать с ленточными накопителями. Для долгосрочного хранения, а также там, где целевое время доступа к резервным копиям сравнительно велико по-прежнему имеет смысл использовать ленточные носители.

Что касается катастрофоустойчивости средств хранения резервных копий, для ленточных решений существует два варианта. Первый вариант подразумевает клонирование данных на ленточных носителях для отчуждения с последующей выгрузкой носителей и перевозкой в удаленное помещение для надежного хранения. Второй – организация параллельной или отложенной записи на ленточные носители в двух ЦОД. На первый взгляд первый вариант может показаться более дешевым в реализации. Однако следует учитывать, что необходимо подготовить подробный регламент, организовать дежурную смену для работы с лентами, а также транспортировку лент в ударо- и/или жаропрочном корпусе на служебном транспорте, не говоря уже о сложности управления жизненным циклом носителей в такой схеме. Не стоит исключать и риски, связанные с возможностью потери или хищением лент при перевозке. Организация параллельной или отложенной записи в двух ЦОД требует прокладки каналов связи. В зависимости от целевых параметров назначения данный вариант может быть хорошей альтернативой первому подходу.

Что касается дисковых средств хранения резервных копий, вариант с экспортом носителей, как правило не применим. Но репликация данных здесь выглядит особенно подходящей, поскольку возможна организация передачи данных в дедуплицированном виде, что значительно снижает требования к пропускной способности каналов. При выборе этого типа решений на базе ПАК внимание следует уделять возможностям интеграции механизмов репликации с используемой СРК. Некоторые решения не позволяют полностью раскрыть потенциал указанного подхода, при этом их стоимость не ниже, а наоборот, выше, так как требуется не только большая пропускная способность каналов (если не поддерживается репликация данных в дедуплицированном виде), но и подготовка и сопровождение трудоемкой схемы восстановления сервиса резервного копирования, где высока вероятность ошибки оператора.

Оба варианта обеспечения катастрофоустойчивого хранения резервных копий требуют внимательного отношения к вопросу отказоустойчивости основного сервера СРК, без работоспособности которого резервные копии обычно недоступны для использования. Здесь хорошо помогают технологии кластеризации с применением репликации данных средствами дисковых массивов. Альтернативный вариант – «холодное» резервирование ресурсов в резервном ЦОД. Тем не менее восстановление сервера СРК из специализированной копии может нести в себе риски как с точки зрения длительности восстановления, так и возможности ошибок оператора в ходе восстановления. Стоит взвесить «мгновенные» затраты на построение решения, а также возможные риски при выборе способа защиты средств СРК.

В последнее время СРК обретают возможность интеграции с решениями облачного хранения данных. В некоторых случаях такой подход позволяет оптимизировать издержки на долговременное хранение резервных копий, а также оперативно получать ресурсы по запросу. Тем не менее, процесс восстановления из «облака» может быть довольно болезненным: в экономном варианте канал связи, организованный через сеть Интернет имеет весьма ограниченную пропускную способность. Кроме того, ряд известных провайдеров, позволяет сравнительно дешево передавать данные в облако, однако исходящий трафик оплачивается по более высоким тарифам. К сожалению, применению облачных ресурсов зачастую препятствуют и законодательные ограничения, особенно на территории РФ. Однако в последнее время тенденция меняется – отечественные облачные провайдеры уже предоставляют услуги по хранению данных, в том числе для «холодного» хранения. Стоит обратить внимание на такую возможность, особенно если необходимо оперативно разместить архивные данные при отсутствии РЦОД.

Автор: Всеволод Козинов, старший инженер-проектировщик систем хранения данных, компания «Инфосистемы Джет»

Продолжение следует...


Оставьте комментарий

Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: