© 1995-2022 Компания «Инфосистемы Джет»
EMC Greenplum Database – основа платформы аналитики предприятия
Big Data Big Data

СУБД Greenplum - один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5 - 2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

Главная>Big Data>EMC Greenplum Database – основа платформы аналитики предприятия
Big Data

EMC Greenplum Database – основа платформы аналитики предприятия

30.07.2012

Посетителей: 240

Просмотров: 195

Время просмотра: 0.8 мин.

Авторы

Спикер
Илья Гершанов Cтарший технологический консультант, Greenplum – подразделение ЕМСCтарший технологический консультант, Greenplum – подразделение ЕМС
СУБД Greenplum – один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5–2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

 

 

СУБД Greenplum Database построена на основе архитектуры симметричных вычислений с массовым параллелизмом (Symmetric MPP) без разделения ресурсов, которая была разработана для бизнес-аналитики и аналитической обработки. Именно такая архитектура оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования, объединения огромных таблиц, за счёт возможности параллельной обработки данных на всех узлах кластера БД и отсутствия «узких мест» (недостаточная пропускная способность сети передачи данных или кластерного интерконнекта, производительность СХД и т.д.).

 

Массово-параллельная архитектура без разделения ресурсов подразумевает физическое распределение данных таблиц на небольшие подмножества на отдельных серверах сегментов (рис. 1), каждый из которых имеет выделенный, независимый широкополосный канал подключения к локальным дискам.

 

Рис. 1. Архитектура MPP без разделения ресурсов системы Greenplum

Авторы

Теги

Серверы сегментов способны обрабатывать каждый запрос параллельно, одновременно использовать все подключения к дискам и эффективно распределять потоки данных между сегментами согласно плану запросов. Благодаря этому специализированные СУБД более производительны и масштабируемы, чем СУБД общего назначения, для задач бизнес-аналитики.

 

При работе с большими объёмами информации важно выполнить максимально возможное количество ресурсоёмких операций «максимально близко» к данным. В Greenplum мы рекомендуем организовать хранение на встроенных дисках серверов кластера (Direct Attached Storage, DAS). Тогда данные будут передаваться только по высокоскоростной внутренней шине узла и обрабатываться его процессорами в локальной оперативной памяти, без передачи по сетевой шине. Промежуточные результаты, объемы которых меньше исходных данных на порядок, также передаются по внутренней шине.

 

Не менее важное требование к аналитической системе – высокоскоростная, линейно-масштабируемая загрузка данных. Доступное на рынке сетевое оборудование обеспечивает ширину полосы пропускания от 1 до более чем 2,5 ГБ в секунду для каждого узла кластера. Greenplum за счёт отсутствия архитектурных «узких» мест позволяет линейно масштабировать скорость загрузки путем добавления узлов в кластер. Для каждой строки вставленных данных система вычисляет хэш значений столбцов, чтобы равномерно распределить строки между всеми своими сегментами (рис. 2).

 

Такой подход наряду с секционированием позволяет в большинстве случаев отказаться от индексов. Это положительно сказывается на скорости загрузки данных. В то же время Greenplum поддерживает и растровые индексы, и бинарные деревья для тех случаев, когда их применение необходимо.

 

Архитектура симметричных вычислений с массовым параллелизмом оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования и объединения огромных таблиц

 

Технология Scatter/Gather Streaming (SG Streaming) позволяет линейно масштабировать скорость загрузки данных в СУБД Greenplum. За счёт того, что загрузка может выполняться всеми узлами кластера одновременно, наращивая количество узлов в кластере БД и источнике, можно добиться линейного роста скорости и соответствующего сокращения времени загрузки. На фазе «рассредоточения» (scatter) каждый узел загружает данные в кластер.

 

На фазе сбора данные перераспределяются между узлами в зависимости от значения хеш-функции ключа распределения.

 

Рис. 2. Параллельная загрузка данных

 

Greenplum обеспечивает возможность организации хранения данных таблицы как по записям, так и по столбцам. Причем способ хранения, благодаря технологии Polymorphic Data Storage, можно чередовать даже на уровне разделов (партиций).

 

Функционал СУБД Greenplum помогает компаниям эффективно решать актуальные бизнес-задачи, связанные с Big Data. Благодаря особенностям своей архитектуры, система может практически неограниченно расти вместе с данными, а также обрабатывать их с необходимой скоростью.

Уведомления об обновлении тем – в вашей почте

Использование быстрых носителей для хранения данных

В этом обзоре мы рассмотрим варианты использования быстрой памяти в подсистемах ввода-вывода, а также разберем случаи ее применения в составе современных систем хранения

В омут с головой? Что может дать «озеро данных» бизнесу

Методология data lake при правильном использовании позволяет справиться с обработкой и хранением увеличивающихся объемов данных/

Как не утопить ваши данные в болоте

Практика говорит: все больше и больше заказчиков приходит с идей построить единое хранилище, да еще на новых технологиях.

Матрица: эволюция

В первой «Матрице» есть эпизод, в котором оператор в режиме реального времени мониторит многочисленные показатели системы и дает Нео совет: «Информации, получаемой из Матрицы, гораздо больше, чем ты можешь расшифровать. Нужно адаптироваться к этому»

Анализ Big Data в ML-проектах

Почему традиционные СУБД не подходят для анализа Big Data? Что дает использование Cloudera Data Platform? Подробности создания Data Lake для Группы НЛМК

Тенденции в мире СХД

Задумавшись над вопросом о современных тенденциях в мире СХД, можно сделать, на первый взгляд, банальный вывод

EMC Greenplum в инвестиционном бизнесе

Тройка Диалог - один из лидеров инвестиционно-банковского бизнеса, работающий на рынках России и СНГ. Среди услуг можно перечислить ПИФы, интернет-трейдинг, индивидуальное брокерское обслуживание, доверительное управление, инвестиционное страхование жизни, управление пенсионными накоплениями.

Большие Данные = большая проблема?

Одна из наиболее обсуждаемых тем в ИТ-изданиях в последнее время - феномен Big Data, или проблема Больших Данных. Стоит отметить, что проблема хранения и обработки большого объема данных существовала всегда, но с развитием ИТ она стала беспокоить не только ряд крупнейших корпораций, но и гораздо более широкий круг компаний.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня