ИТ-портал компании «Инфосистемы Джет»

Вычисления в оперативной памяти: зачем in-memory технологии бизнесу

Вычисления в оперативной памяти: зачем in-memory технологии бизнесу

Вычисления в оперативной памяти сделали большой шаг вперед за последние несколько лет. Сегодня технологии in-memory обеспечивают максимальную скорость работы приложений и возможность быстрого масштабирования — а это именно то, что нужно компаниям для успешной цифровизации и перехода на омниканальную модель бизнеса.

Что представляют собой инициативы, связанные с омниканальностью и цифровизацией? Это могут быть приложения web-scale, мобильные приложения, системы управления складом, приложения, связанные с Интернетом вещей, и т.д. Согласно прогнозам исследовательской и консалтинговой компании Gartner, в ближайшие годы использование технологий in-memory будет только расти:

● к 2019 г. в разработке 75% нативных облачных приложений будут использоваться вычисления в оперативной памяти или основанные на них сервисы, благодаря чему разработчики смогут внедрять высокопроизводительные масштабируемые приложения;

● к 2021 г. как минимум 25% крупных международных организаций перейдут на платформы in-memory с целью оптимизации своей сложной инфраструктуры.

Ввиду вышесказанного, руководителям ИТ-подразделений любых компаний будет полезно узнать, каков уровень развития технологий in-memory на сегодняшний день и чего можно ожидать от этой сферы в ближайшем будущем.

В число решений, основанных на вычислениях в оперативной памяти, входят:

  • IMDG (In-Memory Data Grid — grid-системы управления данными);
  • IMDB (In-Memory DataBase — базы данных в оперативной памяти);
  • решения для потоковой обработки данных;
  • платформы, объединяющие в себе все вышеперечисленное.

In-Memory Data Grid (IMDG) для существующих приложений

IMDG — это распределенное хранилище данных в оперативной памяти, развернутое на кластере локальных или облачных серверов. Оно находится между слоем данных и слоем существующих приложений. IMDG может задействовать всю доступную память и мощность процессоров в кластере, а для масштабирования достаточно просто добавить в кластер новые узлы. IMDG копирует данные, хранящиеся в дисковых хранилищах (RDBMS, NoSQL, Hadoop), в оперативную память для сверхбыстрой обработки. Полностью отсутствует задержка, связанная с чтением или записью данных на диск.

Некоторые IMDG также поддерживают транзакции ANSI-99 SQL и ACID, имеют продвинутый уровень безопасности и по умолчанию интегрируются с Apache Spark, Apache Cassandra и Apache Hadoop. Такое хранилище — это наиболее простой и доступный способ ускорить и масштабировать существующие ИТ-архитектуры, чтобы они могли поддерживать облачные приложения, инициативы в сфере IoT (Интернета вещей) и другие проекты, связанные с большими объемами данных. В некоторых случаях IMDG позволяет организациям внедрить гибридную транзакционно-аналитическую обработку данных (HTAP).

К примеру, компания Workday, поставщик SaaS-решений в сфере финансов и управления персоналом, обслуживает около 1800 компаний-клиентов с общим числом сотрудников около 26 млн. Workday сегодня использует IMDG-хранилище для обработки около 189 млн транзакций ежедневно, с пиковой нагрузкой около 289 млн транзакций в день. Для сравнения, Twitter ежедневно обрабатывает около 500 млн твитов.

А туристическая B2B-компания JacTravel предоставляет партнерам доступ к собственной базе отелей через API-решение. Число партнеров компании превышает 20 000, а количество отелей в ее базе насчитывает более 15 000. В 2016 г. компания столкнулась с необходимостью увеличить скорость обработки и объединить свою платформу бронирования с аналогичной платформой поглощенной компании. В то время система JacTravel ежедневно получала и обрабатывала 200–300 млн поисковых запросов. Новая ИТ-система основана на технологии IMDG от GridGain, которая позволяет успешно обрабатывать более 500 млн запросов в день. При этом система обладает достаточным запасом вычислительной мощности для обработки запросов с учетом их экспоненциального роста в будущем.

In-Memory DataBase (IMDB) для новых приложений

Как правило, компании используют IMDB при перестройке архитектуры существующих приложений или при создании новых. Эти решения могут опираться на архитектуру in-memory, разработанную для достижения максимальной скорости и масштабируемости с возможностью балансировать затраты и производительность. Сегодня наиболее продвинутые IMDB поддерживают API для обработки данных, в том числе ANSI-99 SQL, поиск «ключ-значение» и машинное обучение. Все данные хранятся в RAM, и отсутствие необходимости записывать или загружать данные с диска обеспечивает производительность в 1000 раз выше, чем у дисковых баз данных. IMDB может использоваться для существующего приложения, только если она полностью заменяет существующую базу данных.

Потоковая обработка данных

Благодаря высочайшей скорости вычислений в оперативной памяти, система потоковой обработки справляется со всеми сложностями, связанными с потоками данных. В результате пользователи могут с легкостью делать запросы по активным данным без ущерба для производительности. Система потоковой аналитики позволяет компаниям быстро находить ответы на вопросы вида: «Какие 10 продуктов были самыми популярными за последние два часа?» или «Какова средняя цена товара в определенной категории за прошедший день?». При этом не требуется перемещать данные в аналитическую БД.

С добавлением фреймворков непрерывного обучения, платформы in-memory могут использовать модели машинного обучения для принятия решений, основанных на входящих данных. Благодаря тому, что библиотеки машинного обучения и глубокого обучения являются частью платформы in-memory, их даже можно использовать для непрерывного обучения, при котором модели постоянно обновляются по мере добавления новых данных к массиву оперативных данных. Таким образом, система может в режиме реального времени адаптироваться к изменениям во входящих данных, чтобы обеспечить принятие более эффективных решений.

Например, компания Intelligentpipe поставляет аналитическое ПО для операторов сотовой связи: ее продукт собирает и анализирует данные об активности нескольких десятков миллионов абонентов. Чтобы обеспечить потоковую обработку терабайтов данных в реальном времени, компания встроила в свое решение платформу GridGain для вычислений в оперативной памяти. Теперь клиенты Intelligentpipe получают ценные аналитические выводы и своевременно принимают важные решения.

Платформы in-memory

Платформы in-memory объединяют в себе IMDG, IMDB, потоковую обработку и возможности непрерывного обучения. Комплексные платформы обеспечивают компаниям достаточную гибкость для ускорения и масштабирования существующих приложений, а также для создания новых приложений — все это с использованием одного комплексного продукта от одного вендора, т.е. без проблем с совместимостью. Использование одной платформы вместо нескольких решений значительно упрощает и ускоряет разработку приложений, снижая таким образом расходы компании.

Так, компания Wellington Management, под управлением которой находятся клиентские активы на сумму более $1 трлн, развернула инвестиционную книгу учета на платформе in-memory. Эта книга учета служит единственным источником информации по инвестиционным позициям, рискам, оценочной стоимости и динамике курсов. Все трейдинговые сделки, а также связанная с ними активность счета и бэк-офиса проходят через инвестиционную книгу учета в реальном времени. Она также поддерживает аналитические функции: анализ производительности, оценку рисков, нормативно-правовое соответствие и т.д. Инвестиционная книга учета построена на платформе in-memory, которая обладает возможностью неограниченного горизонтального масштабирования, использует SQL, поддерживает гибридную транзакционно-аналитическую обработку данных (HTAP) и работает как минимум в 10 раз быстрее, чем находящаяся под ней база данных Oracle.

Британская исследовательская компания e-Therapeutics проводит вычислительный анализ больных клеток, чтобы найти лекарства от тяжелых болезней. Для получения результата необходимо провести сотни тысяч аналитических операций. В 2012 г. чтобы ускорить процесс работы, компания внедрила платформу GridGain для вычислений в оперативной памяти. Платформа была развернута на кластере из 20 узлов на одном 20-ядерном сервере. Скорость вычисления выросла примерно в 80 раз по сравнению со скоростью при использовании традиционной ИТ-инфраструктуры. Затем по мере роста нагрузки были постепенно добавлены еще 80 узлов на 4 серверах. Аналитические проекты, которые ранее выполнялись в течение нескольких недель или месяцев, теперь успешно завершаются за несколько часов.

Постоянное хранилище: RAM-центричная архитектура

Одна из наиболее интересных инноваций последнего времени — RAM-центричные архитектуры, основанные на возможности persistent store, т.е. постоянного хранилища. Оно представляет собой распределенное дисковое хранилище с поддержкой ACID и ANSI-99 SQL, которое может быть развернуто на дисках, твердотельных накопителях (SSD), 3D XPoint и памяти других разновидностей.

В данном случае весь набор данных хранится на полностью рабочем диске, а в RAM находится только небольшой поднабор определенных пользователем данных, для которых критичным является сверхбыстрый доступ. Это позволяет организациям настроить количество данных, хранящихся в оперативной памяти, чтобы достичь оптимального баланса между стоимостью инфраструктуры и производительностью приложений. Так как данные на диске являются полностью рабочими, нет необходимости ждать, пока все они загрузятся в RAM при перезагрузке кластера. Постоянное хранилище также позволяет организациям пользоваться HTAP-обработкой данных, не загружая полный объем данных в оперативную память.

Машинное обучение

Еще одна важная инновация, связанная с вычислениями в оперативной памяти, — это включение функций ML и DL в платформу in-memory. Библиотеки машинного обучения и глубокого обучения могут быть оптимизированы для массово-параллельной обработки (MPP) данных, хранящихся в оперативной памяти кластера. Таким образом, становится возможным значительно ускорить ML и DL на больших массивах данных, запустив алгоритмы машинного/глубокого обучения напрямую на петабайтах оперативных данных в реальном времени — без необходимости перемещать данные в отдельную БД. Эта новая архитектура также позволяет осуществлять непрерывное обучение, позволяющее постоянно обновлять модели машинного обучения с максимальной скоростью и горизонтальной масштабируемостью — например, для выявления мошенничества, для систем персональных рекомендаций в e-commerce и т.д.

Сегодня предприятия вынуждены инициировать цифровизацию и переход на омниканальность под растущим давлением технического прогресса. Поэтому развитие технологий in-memory является одним из наиболее значительных трендов в ИТ. Руководителям компаний следует внимательно отслеживать развитие этой сферы, а также рассмотреть возможность посещения одной из множества конференций и встреч, посвященных данной технологии. Это позволит понять, какие преимущества может дать внедрение решений in-memory именно вашей организации.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su