© 1995-2023 Компания «Инфосистемы Джет»
EMC Greenplum Database – основа платформы аналитики предприятия
Big Data Big Data

СУБД Greenplum - один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5 - 2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

Главная>Big Data>EMC Greenplum Database – основа платформы аналитики предприятия
Big Data

EMC Greenplum Database – основа платформы аналитики предприятия

30.07.2012

Посетителей: 288

Просмотров: 231

Время просмотра: 0.8 мин.

Авторы

Спикер
Илья Гершанов Cтарший технологический консультант, Greenplum – подразделение ЕМСCтарший технологический консультант, Greenplum – подразделение ЕМС
СУБД Greenplum – один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5–2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

 

 

СУБД Greenplum Database построена на основе архитектуры симметричных вычислений с массовым параллелизмом (Symmetric MPP) без разделения ресурсов, которая была разработана для бизнес-аналитики и аналитической обработки. Именно такая архитектура оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования, объединения огромных таблиц, за счёт возможности параллельной обработки данных на всех узлах кластера БД и отсутствия «узких мест» (недостаточная пропускная способность сети передачи данных или кластерного интерконнекта, производительность СХД и т.д.).

 

Массово-параллельная архитектура без разделения ресурсов подразумевает физическое распределение данных таблиц на небольшие подмножества на отдельных серверах сегментов (рис. 1), каждый из которых имеет выделенный, независимый широкополосный канал подключения к локальным дискам.

 

Рис. 1. Архитектура MPP без разделения ресурсов системы Greenplum

Авторы

Теги

Серверы сегментов способны обрабатывать каждый запрос параллельно, одновременно использовать все подключения к дискам и эффективно распределять потоки данных между сегментами согласно плану запросов. Благодаря этому специализированные СУБД более производительны и масштабируемы, чем СУБД общего назначения, для задач бизнес-аналитики.

 

При работе с большими объёмами информации важно выполнить максимально возможное количество ресурсоёмких операций «максимально близко» к данным. В Greenplum мы рекомендуем организовать хранение на встроенных дисках серверов кластера (Direct Attached Storage, DAS). Тогда данные будут передаваться только по высокоскоростной внутренней шине узла и обрабатываться его процессорами в локальной оперативной памяти, без передачи по сетевой шине. Промежуточные результаты, объемы которых меньше исходных данных на порядок, также передаются по внутренней шине.

 

Не менее важное требование к аналитической системе – высокоскоростная, линейно-масштабируемая загрузка данных. Доступное на рынке сетевое оборудование обеспечивает ширину полосы пропускания от 1 до более чем 2,5 ГБ в секунду для каждого узла кластера. Greenplum за счёт отсутствия архитектурных «узких» мест позволяет линейно масштабировать скорость загрузки путем добавления узлов в кластер. Для каждой строки вставленных данных система вычисляет хэш значений столбцов, чтобы равномерно распределить строки между всеми своими сегментами (рис. 2).

 

Такой подход наряду с секционированием позволяет в большинстве случаев отказаться от индексов. Это положительно сказывается на скорости загрузки данных. В то же время Greenplum поддерживает и растровые индексы, и бинарные деревья для тех случаев, когда их применение необходимо.

 

Архитектура симметричных вычислений с массовым параллелизмом оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования и объединения огромных таблиц

 

Технология Scatter/Gather Streaming (SG Streaming) позволяет линейно масштабировать скорость загрузки данных в СУБД Greenplum. За счёт того, что загрузка может выполняться всеми узлами кластера одновременно, наращивая количество узлов в кластере БД и источнике, можно добиться линейного роста скорости и соответствующего сокращения времени загрузки. На фазе «рассредоточения» (scatter) каждый узел загружает данные в кластер.

 

На фазе сбора данные перераспределяются между узлами в зависимости от значения хеш-функции ключа распределения.

 

Рис. 2. Параллельная загрузка данных

 

Greenplum обеспечивает возможность организации хранения данных таблицы как по записям, так и по столбцам. Причем способ хранения, благодаря технологии Polymorphic Data Storage, можно чередовать даже на уровне разделов (партиций).

 

Функционал СУБД Greenplum помогает компаниям эффективно решать актуальные бизнес-задачи, связанные с Big Data. Благодаря особенностям своей архитектуры, система может практически неограниченно расти вместе с данными, а также обрабатывать их с необходимой скоростью.

Уведомления об обновлении тем – в вашей почте

Как не утопить ваши данные в болоте

Практика говорит: все больше и больше заказчиков приходит с идей построить единое хранилище, да еще на новых технологиях.

Цифровые недра, или ИТ–инфраструктуру 2025 года пора планировать уже сейчас. Часть 2

Литературный образ цифровых недр хорошо описывает те изменения, которые происходят на планете в ходе цифровой революции

Анализируй это, или Тренды рынка BI

Как Артур Конан Дойл описал ожидания от работы BI за 100 лет до его появления.

Современные Сизифы

Сизиф, царь Коринфа, был великим мошенником. Благодаря своей хитрости он собрал несметные сокровища.

Exadata - решение для Big Data?

Уже полтора года в нашей компании развернут демо-центр по Oracle Exadata Database Machine, и мы регулярно на различных мероприятиях докладываем о полученных на этом оптимизированном программно-аппаратном комплексе результах.

«Облачные» решения от EMC

Корпорация EMC в числе первых начала разработку продуктов, предназначенных для построения «облачной» инфраструктуры. В настоящее время EMC является лидером на рынке решений Cloud Ready для СХД.

СУБД NoSQL – cильные и слабые стороны

Понятие NoSQL (Not Only SQL или No SQL) получило известность с 2009 года. Именно тогда развитие web-технологий и социальных сервисов дало толчок множеству новых подходов к хранению и обработке данных.

«Мы строим с нуля и берем лучшие мировые технологии»

Несколько лет подряд Москва становится номинантом престижной международной премии World Smart City Awards.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня