EMC Greenplum Database – основа платформы аналитики предприятия
Big Data Big Data

СУБД Greenplum - один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5 - 2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

Главная>Big Data>EMC Greenplum Database – основа платформы аналитики предприятия
Big Data

EMC Greenplum Database – основа платформы аналитики предприятия

Дата публикации:
30.07.2012
Посетителей:
336
Просмотров:
276
Время просмотра:
2.3

Авторы

Спикер
Илья Гершанов Cтарший технологический консультант, Greenplum – подразделение ЕМСCтарший технологический консультант, Greenplum – подразделение ЕМС
СУБД Greenplum – один из лидеров в отрасли специализированных СУБД для систем хранилищ данных и аналитики. Российский и зарубежный опыт показывает, что объем данных увеличивается в среднем в 1,5–2,5 раза в год. Greenplum позволяет справиться с этим экспоненциальным ростом.

 

 

СУБД Greenplum Database построена на основе архитектуры симметричных вычислений с массовым параллелизмом (Symmetric MPP) без разделения ресурсов, которая была разработана для бизнес-аналитики и аналитической обработки. Именно такая архитектура оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования, объединения огромных таблиц, за счёт возможности параллельной обработки данных на всех узлах кластера БД и отсутствия «узких мест» (недостаточная пропускная способность сети передачи данных или кластерного интерконнекта, производительность СХД и т.д.).

 

Массово-параллельная архитектура без разделения ресурсов подразумевает физическое распределение данных таблиц на небольшие подмножества на отдельных серверах сегментов (рис. 1), каждый из которых имеет выделенный, независимый широкополосный канал подключения к локальным дискам.

 

Рис. 1. Архитектура MPP без разделения ресурсов системы Greenplum

Авторы

Теги

Серверы сегментов способны обрабатывать каждый запрос параллельно, одновременно использовать все подключения к дискам и эффективно распределять потоки данных между сегментами согласно плану запросов. Благодаря этому специализированные СУБД более производительны и масштабируемы, чем СУБД общего назначения, для задач бизнес-аналитики.

 

При работе с большими объёмами информации важно выполнить максимально возможное количество ресурсоёмких операций «максимально близко» к данным. В Greenplum мы рекомендуем организовать хранение на встроенных дисках серверов кластера (Direct Attached Storage, DAS). Тогда данные будут передаваться только по высокоскоростной внутренней шине узла и обрабатываться его процессорами в локальной оперативной памяти, без передачи по сетевой шине. Промежуточные результаты, объемы которых меньше исходных данных на порядок, также передаются по внутренней шине.

 

Не менее важное требование к аналитической системе – высокоскоростная, линейно-масштабируемая загрузка данных. Доступное на рынке сетевое оборудование обеспечивает ширину полосы пропускания от 1 до более чем 2,5 ГБ в секунду для каждого узла кластера. Greenplum за счёт отсутствия архитектурных «узких» мест позволяет линейно масштабировать скорость загрузки путем добавления узлов в кластер. Для каждой строки вставленных данных система вычисляет хэш значений столбцов, чтобы равномерно распределить строки между всеми своими сегментами (рис. 2).

 

Такой подход наряду с секционированием позволяет в большинстве случаев отказаться от индексов. Это положительно сказывается на скорости загрузки данных. В то же время Greenplum поддерживает и растровые индексы, и бинарные деревья для тех случаев, когда их применение необходимо.

 

Архитектура симметричных вычислений с массовым параллелизмом оптимальна для типичных операций аналитических БД, например, сортировки, агрегирования и объединения огромных таблиц

 

Технология Scatter/Gather Streaming (SG Streaming) позволяет линейно масштабировать скорость загрузки данных в СУБД Greenplum. За счёт того, что загрузка может выполняться всеми узлами кластера одновременно, наращивая количество узлов в кластере БД и источнике, можно добиться линейного роста скорости и соответствующего сокращения времени загрузки. На фазе «рассредоточения» (scatter) каждый узел загружает данные в кластер.

 

На фазе сбора данные перераспределяются между узлами в зависимости от значения хеш-функции ключа распределения.

 

Рис. 2. Параллельная загрузка данных

 

Greenplum обеспечивает возможность организации хранения данных таблицы как по записям, так и по столбцам. Причем способ хранения, благодаря технологии Polymorphic Data Storage, можно чередовать даже на уровне разделов (партиций).

 

Функционал СУБД Greenplum помогает компаниям эффективно решать актуальные бизнес-задачи, связанные с Big Data. Благодаря особенностям своей архитектуры, система может практически неограниченно расти вместе с данными, а также обрабатывать их с необходимой скоростью.

Уведомления об обновлении тем – в вашей почте

EMC Greenplum в инвестиционном бизнесе

Тройка Диалог - один из лидеров инвестиционно-банковского бизнеса, работающий на рынках России и СНГ. Среди услуг можно перечислить ПИФы, интернет-трейдинг, индивидуальное брокерское обслуживание, доверительное управление, инвестиционное страхование жизни, управление пенсионными накоплениями.

Какие профессии в ИТ будут востребованы в 2021 году

Можно сказать однозначно: вакансий для ИТ-специалистов меньше не станет ни в течение нынешнего года, ни в 10-летней и даже более отдаленной перспективе. Материал подготовлен экспертами Trud.com

Виртуальные ленточные библиотеки. Мифы и реальность

Современные системы хранения данных (СХД) обеспечивают исключительно высокий уровень надежности хранения благодаря отказоустойчивой архитектуре оборудования, включающей в себя дублирование компонентов, поддержку механизмов RAID и т.д., а также за счет применения средств создания копий данных, моментальных снимков (snapshot) и репликации.

Большие Данные = большая проблема?

Одна из наиболее обсуждаемых тем в ИТ-изданиях в последнее время - феномен Big Data, или проблема Больших Данных. Стоит отметить, что проблема хранения и обработки большого объема данных существовала всегда, но с развитием ИТ она стала беспокоить не только ряд крупнейших корпораций, но и гораздо более широкий круг компаний.

Маленькая «серебряная пуля»

Данные – новая валюта бизнеса. Пожалуй, многие согласятся с таким утверждением

Exadata - решение для Big Data?

Уже полтора года в нашей компании развернут демо-центр по Oracle Exadata Database Machine, и мы регулярно на различных мероприятиях докладываем о полученных на этом оптимизированном программно-аппаратном комплексе результах.

Пора ли переходить на All-Flash СХД?

В последнее время не проходит и месяца без появления отраслевых новостей, касающихся новых решений для хранения данных. Гонка за бюджеты заказчиков всё чаще разворачивается в плоскости противостояния привычных дисковых массивов и решений, построенных на flash-накопителях.

«Мы строим с нуля и берем лучшие мировые технологии»

Несколько лет подряд Москва становится номинантом престижной международной премии World Smart City Awards.

Спасибо!
Вы подписались на обновления наших статей
Предложить
авторский материал





    Спасибо!
    Вы подписались на обновления наших статей
    Подписаться
    на тему







      Спасибо!
      Вы подписались на обновления наших статей
      Оформить
      подписку на журнал







        Спасибо!
        Вы подписались на обновления наших статей
        Оформить
        подписку на новости







          Спасибо!
          Вы подписались на обновления наших статей
          Задать вопрос
          редактору








            Оставить заявку

            Мы всегда рады ответить на любые Ваши вопросы

            * Обязательные поля для заполнения

            Спасибо!

            Благодарим за обращение. Ваша заявка принята

            Наш специалист свяжется с Вами в течение рабочего дня