EMC Greenplum Database – основа платформы аналитики предприятия
Big Data Big Data

СУБД Greenplum - один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5 - 2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

Главная>Big Data>EMC Greenplum Database – основа платформы аналитики предприятия
Big Data

EMC Greenplum Database – основа платформы аналитики предприятия

Дата публикации:
30.07.2012
Посетителей:
304
Просмотров:
243
Время просмотра:
0.7 мин.

Авторы

Спикер
Илья Гершанов Cтарший технологический консультант, Greenplum – подразделение ЕМСCтарший технологический консультант, Greenplum – подразделение ЕМС
СУБД Greenplum – один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5–2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

 

 

СУБД Greenplum Database построена на основе архитектуры симметричных вычислений с массовым параллелизмом (Symmetric MPP) без разделения ресурсов, которая была разработана для бизнес-аналитики и аналитической обработки. Именно такая архитектура оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования, объединения огромных таблиц, за счёт возможности параллельной обработки данных на всех узлах кластера БД и отсутствия «узких мест» (недостаточная пропускная способность сети передачи данных или кластерного интерконнекта, производительность СХД и т.д.).

 

Массово-параллельная архитектура без разделения ресурсов подразумевает физическое распределение данных таблиц на небольшие подмножества на отдельных серверах сегментов (рис. 1), каждый из которых имеет выделенный, независимый широкополосный канал подключения к локальным дискам.

 

Рис. 1. Архитектура MPP без разделения ресурсов системы Greenplum

Авторы

Теги

Серверы сегментов способны обрабатывать каждый запрос параллельно, одновременно использовать все подключения к дискам и эффективно распределять потоки данных между сегментами согласно плану запросов. Благодаря этому специализированные СУБД более производительны и масштабируемы, чем СУБД общего назначения, для задач бизнес-аналитики.

 

При работе с большими объёмами информации важно выполнить максимально возможное количество ресурсоёмких операций «максимально близко» к данным. В Greenplum мы рекомендуем организовать хранение на встроенных дисках серверов кластера (Direct Attached Storage, DAS). Тогда данные будут передаваться только по высокоскоростной внутренней шине узла и обрабатываться его процессорами в локальной оперативной памяти, без передачи по сетевой шине. Промежуточные результаты, объемы которых меньше исходных данных на порядок, также передаются по внутренней шине.

 

Не менее важное требование к аналитической системе – высокоскоростная, линейно-масштабируемая загрузка данных. Доступное на рынке сетевое оборудование обеспечивает ширину полосы пропускания от 1 до более чем 2,5 ГБ в секунду для каждого узла кластера. Greenplum за счёт отсутствия архитектурных «узких» мест позволяет линейно масштабировать скорость загрузки путем добавления узлов в кластер. Для каждой строки вставленных данных система вычисляет хэш значений столбцов, чтобы равномерно распределить строки между всеми своими сегментами (рис. 2).

 

Такой подход наряду с секционированием позволяет в большинстве случаев отказаться от индексов. Это положительно сказывается на скорости загрузки данных. В то же время Greenplum поддерживает и растровые индексы, и бинарные деревья для тех случаев, когда их применение необходимо.

 

Архитектура симметричных вычислений с массовым параллелизмом оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования и объединения огромных таблиц

 

Технология Scatter/Gather Streaming (SG Streaming) позволяет линейно масштабировать скорость загрузки данных в СУБД Greenplum. За счёт того, что загрузка может выполняться всеми узлами кластера одновременно, наращивая количество узлов в кластере БД и источнике, можно добиться линейного роста скорости и соответствующего сокращения времени загрузки. На фазе «рассредоточения» (scatter) каждый узел загружает данные в кластер.

 

На фазе сбора данные перераспределяются между узлами в зависимости от значения хеш-функции ключа распределения.

 

Рис. 2. Параллельная загрузка данных

 

Greenplum обеспечивает возможность организации хранения данных таблицы как по записям, так и по столбцам. Причем способ хранения, благодаря технологии Polymorphic Data Storage, можно чередовать даже на уровне разделов (партиций).

 

Функционал СУБД Greenplum помогает компаниям эффективно решать актуальные бизнес-задачи, связанные с Big Data. Благодаря особенностям своей архитектуры, система может практически неограниченно расти вместе с данными, а также обрабатывать их с необходимой скоростью.

Уведомления об обновлении тем – в вашей почте

Большие Данные = большая проблема?

Одна из наиболее обсуждаемых тем в ИТ-изданиях в последнее время - феномен Big Data, или проблема Больших Данных. Стоит отметить, что проблема хранения и обработки большого объема данных существовала всегда, но с развитием ИТ она стала беспокоить не только ряд крупнейших корпораций, но и гораздо более широкий круг компаний.

Современный ритейлер трансформируется в цифровую компанию

Руководитель направления “Стратегия и инновации” ИТ-дирекции X5 Retail Group Виталий Порубов рассказал нам об особенностях цифровой трансформации одного из крупнейших отечественных ритейлеров в условиях, когда инновации стали важным способом оптимизации бизнеса.

Использование быстрых носителей для хранения данных

В этом обзоре мы рассмотрим варианты использования быстрой памяти в подсистемах ввода-вывода, а также разберем случаи ее применения в составе современных систем хранения

Пора ли переходить на All-Flash СХД?

В последнее время не проходит и месяца без появления отраслевых новостей, касающихся новых решений для хранения данных. Гонка за бюджеты заказчиков всё чаще разворачивается в плоскости противостояния привычных дисковых массивов и решений, построенных на flash-накопителях.

Exadata - решение для Big Data?

Уже полтора года в нашей компании развернут демо-центр по Oracle Exadata Database Machine, и мы регулярно на различных мероприятиях докладываем о полученных на этом оптимизированном программно-аппаратном комплексе результах.

Как не утопить ваши данные в болоте

Практика говорит: все больше и больше заказчиков приходит с идей построить единое хранилище, да еще на новых технологиях.

Цифровые недра, или ИТ–инфраструктуру 2025 года пора планировать уже сейчас. Часть 2

Литературный образ цифровых недр хорошо описывает те изменения, которые происходят на планете в ходе цифровой революции

Защита Big Data

Как правильно строить защиту больших данных? Какие ИБ-проблемы есть у Hadoop? Существует ли универсальная пилюля от всех уязвимостей Big Data?

Современные Сизифы

Сизиф, царь Коринфа, был великим мошенником. Благодаря своей хитрости он собрал несметные сокровища.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня