ИТ-портал компании «Инфосистемы Джет»

Заглянуть в цифровую черную дыру

Заглянуть в цифровую черную дыру

При упоминании Big Data у окружающих появляется мысль о том, что речь идет о передовых технологиях, о новых невероятных возможностях для хранения, обработки и анализа данных, но так ли это на самом деле? Большие Данные стали наболевшей темой, обсуждаемой везде, где только можно, однако четкого понимания, что же делать с этими технологиями и как их использовать, все еще нет. Логично встает вопрос: действительно ли за ними будущее всего бизнес-анализа и хранения данных, для решения каких задач мы можем применять такие технологии?

Как правило, Big Data подразумевает сочетание трех «V»: Volume – объем данных, измеряемый терабайтами; Velocity – необходимость обрабатывать информацию с большой скоростью, например, время операции по проверке баланса на карте при снятии наличных исчисляется в миллисекундах; Variety – многообразие и часто недостаточная структурированность данных. Все чаще нам приходится оперировать медиаконтентом, записями в блогах, слабо структурированными документами, фотографиями и т.д.

Как только термин «Большие Данные» начал набирать популярность в России, стали появляться утверждения о том, что «кто-то где-то» уже давно делает и продолжает делать такие проекты. Однако, как правило, речь идет лишь об очень больших хранилищах данных. Существуют три «если», которые помогают понять, что проект никак не связан с Big Data:

  • если данных немного и они структурированы;
  • если ответ приходит с большой задержкой;
  • если мы знаем, что ищем. Задача аналитика Больших Данных состоит не в том, чтобы найти правильный ответ, а в том, чтобы задать правильный вопрос. Мы ищем закономерности, при этом никто не знает, что может обнаружиться.
Журнал The Economist подсчитал, что объем данных каждый год растет на 60%. Цифровая черная дыра выросла до 1,8 зеттабайт в 2011 г. – на 47% по отношению к 2010 г. Большое количество данных мы уже научились анализировать с помощью систем Business Intelligence, однако когда речь идет о больших объемах стремительно меняющихся данных, приходится искать новые пути решения.

Существует несколько задач, связанных с Big Data, с которыми к нам все чаще обращаются компании-заказчики. Речь идет, например, о системах массового обслуживания B2C, поводом задуматься о Больших Данных здесь является совокупность 2 факторов: большое количество потребителей и значительное число товаров/услуг. У компаний различных сфер бизнеса постоянно возникает задача группировки (сегментации) клиентов, для того чтобы предлагать им те услуги или товары, которые действительно будут востребованы. Сегментация может выполняться по различным признакам: адресу, возрасту, полу и др. Но она сильно усложняется, когда речь идет о миллионах клиентов и сотнях услуг.

В нашей статье мы собрали несколько интересных кейсов, решение которых подразумевает применение технологий Больших Данных.

Телеком

В большинстве телекоммуникационных компаний бизнес-системы генерируют терабайты данных каждый день. Они могут дать ценную информацию о ключевых показателях производительности и эффективности бизнеса. Улучшение обслуживания, снижение рисков мошенничества, повышение производительности сети доставки услуг и оптимизация предоставления контента – все это может быть достигнуто с помощью операционной аналитики на основе получаемых и передаваемых данных.

Российские телеком-операторы сегодня обслуживают миллионы абонентов, неравномерно распределенных по территории страны, и предоставляют им разнообразный набор услуг. Возьмем, к примеру, телефонные звонки. Голосовая связь является базовой услугой, при этом звонки можно дифференцировать на междугородние, международные, на звонки абонентам своих/чужих сетей и т.д. Абоненты, неравномерно распределенные по сети, так же неравномерно используют этот вид услуги по времени. Зачастую они мобильны, постоянно перемещаются по своему городу или по стране, уезжают за границу. Поэтому сетевые ресурсы, установленные телеком-оператором по всей стране, нередко оказываются неэффективными в каком-то конкретном месте.

Встает задача повышения эффективности имеющейся сетевой инфраструктуры. Необходимо проанализировать нагрузку на нее в различных разрезах для выявления как неэффективно используемых ресурсов, так и ресурсов, подвергающихся перегрузкам. Отметим, что провоцировать значительное увеличение временных нагрузок на ресурсы в том числе могут массовые мероприятия, а также некоторые сезонные явления. Анализ возникающей нагрузки в разрезе времени (например, интенсивность по рабочим/нерабочим дням), географии, видов услуг и ее корреляция с проводимыми мероприятиями или сезонными явлениями позволяют выявить узкие места и подготовить эффективные решения, требующие наименьших затрат. Телеком-оператор определит, где именно или в какие дни стоит увеличивать возможности конкретных участков сети, для того чтобы абоненты могли получать услуги надлежащего качества. В противном случае легко представить ситуацию, когда абонент не может дозвониться до кого бы то ни было в День города – сеть просто «лежит».

Используя принципы работы с Большими Данными, можно в том числе анализировать в различных разрезах транзакции по оплате мобильной связи. На основании данных о платежах мы можем собирать статистику, классифицировать абонентов: одни платят часто малыми платежами, другие – раз в месяц, некоторые всегда имеют остаток по счету, кто-то, наоборот, регулярно уходит в минус. Мы можем предположить, что абоненты, на протяжении длительного времени имеющие остаток по счету, с наибольшей вероятностью купят предложенную дополнительную услугу.

Одной из самых популярных задач сегодня является анализ записей об успешном (Call Detail Record, CDR) или неуспешном предоставлении услуги. CDR содержат информацию о звонке, в базовом случае это данные о его начале и окончании, но расширенные записи могут включать вид услуги (звонок, SMS и т.д.), информацию о местоположении инициатора звонка, абонента-получателя и др. Их можно анализировать в различных разрезах: абонент, география, узел или участок сети, услуга и др. Если, например, анализировать в разрезе абонента, можно узнать, где он работает и живет. Это позволит наиболее эффективно распределять нагрузку по сети – расширять ее только в определенных районах.

Что касается неуспешных случаев, то самым интересным здесь является анализ неструктурированных логов, собранных с различного оборудования. Его цель – определить причину, почему абонент не смог получить услугу. Например, одна крупная телекоммуникационная компания при внедрении 3G-сети ожидала увидеть увеличение трафика, а значит и прибыли, в 5 раз, увеличение же произошло только в 1,5 раза. Анализ Больших Данных показал, что в 80% случаев абоненты не получали услугу из-за неправильных настроек телефонов. Это означает, что расширение емкости сети не улучшит ситуацию с использованием услуг и будет напрасной тратой средств, нужны другие управленческие решения. Неструктурированные логи – хорошая пища для технологий Bid Data. Их анализ может выявлять неочевидные зависимости.

Надёжные сервисы на ненадёжной инфраструктуре

Вынесение сервисов в облако имеет ещё одно фундаментальное отличие от привычной модели разработки. Это отношение к отказам. Старый подход заключается в том, что мир вокруг разработчика, в общем-то, безоблачен и безотказен. А отказ, если он все же случается, – это повод выбросить белый флаг и сдаться: «невозможно установить соединение – извините, повторите ваш запрос позже». Новый подход состоит в том, что отказы случаются постоянно и с ними нужно уметь работать так же, как мы работаем с разными значениями входных данных. Например, поиск Google работает на колоссальных размеров вычислительной ферме, часть которой (кажется, процентов десять) не функционирует (сломано, отключено, в плановом обслуживании). Google использует самые дешёвые аппаратные компоненты и легко заменяет их новыми при отказе. Что нужно, чтобы это работало? Программные компоненты должны стоически переносить эти отказы.

Для этого разработано множество технологий: кластеризация, обеспечивающая работу системы, пока поддерживается минимальный кворум сервисов; службы каталогов, дающие возможность динамически искать в сети работающие сервисы; репликация данных, позволяющая иметь избыточное количество доступных данных на случай отказа.

Но самое главное – мысль об обработке отказов должна всё время быть в голове у разработчика. Эфемерные экземпляры сервисов могут создаваться и удаляться подсистемой мониторинга из-за изменения нагрузки на систему. Сервисы могут просто отказывать и переставать работать. Они могут становиться недоступными (а потом снова доступными) из-за проблем с сетевой связностью. Недоступность сервиса, обрыв соединения, внутренняя ошибка – это одинаково вероятные события, реакцией на которые должно быть не бросание исключения («всё сломалось!»), а, например, повторный выбор узла с сервисом и еще одна попытка вызова.

Банки

Для финансовых и банковских организаций сбор и анализ данных наиболее эффективен по сравнению с другими отраслями рынка. Эти компании уже давно используют данные из различных систем-источников для определения профиля клиентов. Таким образом достигается максимальная индивидуализация ценообразования и предложения продуктов, прогнозируется поведение клиента (например, в случае выдачи кредита).

Благодаря технологиям Big Data системы безопасности банка могут оперативно анализировать колоссальные массивы информации самого разного происхождения (документы, транзакции, логи интернет-порталов, видеозаписи и пр.), что повышает эффективность противодействия мошенничеству. Крупные банки могут рассчитывать риски по своим операциям на рынках ценных бумаг: для миллионов сообщений в секунду с откликом 80 мкс.

Кроме того, технологии Больших Данных позволяют банку использовать полуструктурированные данные, чтобы выявлять скрытые связи между клиентами. Для этого выполняется анализ клиентских баз, а также неструктурированной информации из соцсетей и других источников, что позволяет разрабатывать более сфокусированные маркетинговые предложения, больше соответствовать ожиданиям разных целевых аудиторий, лучше влиять на потребительское поведение клиентов.

Наиболее ресурсоемкой является графическая, аудио- и видеоинформация. С увеличением числа клиентов растет и число обращений в банки, соответственно, требуется больше ресурсов для хранения записей разговоров между клиентами и сотрудниками контакт-центров, отсканированных изображений кредитных заявок, различных типов договоров, персональных документов. Увеличивается число видеокамер как в офисах и отделениях банков, так и в устройствах самообслуживания (банкоматах, информационных терминалах). И основная сложность заключается даже не в хранении получаемой информации, а в ее анализе и поиске в случае необходимости.

Издательский бизнес

В любых организациях, имеющих большой электронный архив, постоянно возникают проблемы с поиском необходимой информации. Данные, которые хранятся в крупном издательстве в большом объеме, являются настолько неструктурированными, что чем больше становится архив, тем он бесполезнее. Количество структурированных данных, которые используются в таких компаниях, составляет примерно 5%, то есть организация теряет 95% всей своей информации и может получать лишь общее представление о том, например, сколько авторов есть у нее в архиве. Применение технологий Big Data позволяет сегментировать данные в различных разрезах: от даты публикации до ее содержания и тематики. Иными словами, электронный архив с неструктурированной информацией из «мусорной корзины» превращается в полезный инструмент, содержащий базу знаний, доступную для его пользователей.

Дойти до дела

Big Data могут быть интересны компаниям, накапливающим большое количество данных о клиентах, на основании анализа которых можно принять то или иное бизнес-решение. При этом конкретных примеров их использования немного. У компаний-заказчиков еще нет четкого представления о том, какие задачи могут быть решены с помощью Big Data и какие результаты получены. Но потребности в анализе и хранении больших объемов данных уже появились. Существующие примеры использования этих технологий подтверждают их потенциал.

Так, компания «Вымпелком» предлагает своим абонентам – пассажирам в аэропортах – тарифные опции для роуминга и информирует их о стоимости еще до начала поездки. Для этого с помощью анализа больших объемов данных отсекаются пассажиры, которые возвращается домой, персонал аэропорта и таксисты и выделяются те пассажиры, которые собираются сесть в самолет через час-два. Им приходит SMS с предложением: зачастую общим (где и как посмотреть информацию), в некоторых случаях – по конкретному региону или стране (если терминал работает только в этом направлении). Анализ поведения клиентов и предложение им наиболее подходящих услуг именно в тот момент, когда их готовы купить, – вот задачи, которые можно решать с помощью Больших Данных.

У нас тоже есть собственные разработки в части Big Data – DLP-комплекс «Дозор-Джет». Он существует уже много лет и использовал технологии Больших Данных для обработки колоссальных объемов информации еще до того, как все узнали, что такое Big Data. «Дозор-Джет» выполняет проверку сообщений электронной почты, систем мгновенных сообщений, файлов и других данных на соответствие положениям внутренних политик использования интернет-ресурсов и информационных ресурсов компании. При оперативном анализе данных почтового архива, в большинстве своем неструктурированных, традиционные реляционные базы данных с нагрузкой не справляются. Они предназначены для коротких быстрых запросов, идущих однотипным потоком. Как только запросы начинают представлять собой сложные join’ы, производительность резко падает, что снижает эффективность принятия решений и обнаружения утечек информации. Именно поэтому при разработке комплекса «Дозор-Джет» было создано хранилище с уникальной структурой, позволяющее оперативно анализировать огромные массивы неструктурированной информации.


Итак, реальные примеры использования технологий Big Data только стали появляться. Потенциал этих систем действительно велик, однако главной задачей на сегодняшний день остается повышение доверия компаний-заказчиков к анализу такого рода. Как следствие, будет возрастать и понимание ценности использования технологий Больших Данных.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su