ИТ-портал компании «Инфосистемы Джет»

Data Мining – сито для данных

Data Мining – сито для данных

В современном бизнесе, когда компании за годы работы накопили огромные массивы данных, чаще всего носящих довольно хаотичный характер, стандартных средств генерации отчетов уже не достаточно. Возникает известный парадокс: чем больше сведений о предметной области бизнеса накапливается, тем сложнее и дольше эффективно анализировать их и получать значимые выводы и результаты. Тем не менее эти сведения содержат много полезной информации, которую можно и нужно использовать для оптимизации бизнес-процессов и улучшения качества работы компании. Для этого требуется обобщить прошлый опыт, найти закономерности, извлечь правила и применить эти знания в процессе управления. Поэтому здесь нужны механизмы построения аналитических моделей, способные находить нетривиальные и, на первый взгляд, неочевидные закономерности в больших объемах данных. Одним словом, необходимы системы Data Mining (DM).

Data Mining (добыча знаний) – это процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного, корреляционного анализа, анализа временных рядов. Цель этого поиска – представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги, зависимость их приобретения от характеристик потребителя и т.д.).

Применение DM имеет смысл при наличии довольно большого количества данных, находящихся в корпоративном хранилище (КХД). Данные в КХД представляют собой постоянно пополняемый набор, унифицированный и единый для всего предприятия и позволяющий воспроизвести картину его деятельности в любой период времени. Система DM «просеивает» данные («sifts» through the data), раскрывая ранее скрытую информацию. Впрочем, рынок предлагает средства Data Mining, способные выполнять поиск закономерностей, корреляций и тенденций не только в традиционных КХД, но и в других наборах предварительно обработанных статистических данных.

Отдача от использования инструментов Data Mining для решения бизнес-задач становится заметна довольно скоро, при этом затраты на их внедрение могут достаточно быстро окупиться. Основные области, в которых применяется DM, – это финансы, страхование, производство, телекоммуникации, электронная коммерция. Отметим, что Data Mining целесообразно применять везде, где наличествует большое количество данных. В этой статье мы не стремимся охватить все возможные сферы, остановимся лишь на нескольких жизненных примерах.

Определение кредитоспособности клиента

С помощью методов DM может быть решена задача классификации – обнаружение признаков, характеризующих группы объектов исследуемого набора данных (классы). По этим признакам новый объект можно отнести к тому или иному классу. Например, в банках, страховых компаниях системы поддержки принятия решения, используя методы Data Mining, помогают выделить группы характерных неплательщиков, потенциальных потребителей услуг и т.д. Как это происходит? В основе лежит принцип выстраивания дерева принятия решений для классификации клиентов на основании их различных характеристик: возраст, уровень дохода, семейное положение и др. Таким образом, определяются основные черты той или иной группы клиентов. Далее при поступлении в компанию информации о новом клиенте будет определена его принадлежность к определенному классу (надежный/ненадежный заемщик и т.д.).

Прогнозирование объемов продаж

Другая задача, решение которой обеспечивают средства Data Mining, – это прогнозирование: оценка на основе особенностей исторических данных пропущенных или будущих значений целевых численных показателей. Любой торговой организации необходимо осуществлять прогнозирование объемов продаж, например, определенного товара/группы товаров на тот или иной период в будущем на основании данных о продажах в прошлом.

Анализ ассортимента

Еще одна задача – это выявление закономерностей и связей между событиями в наборе данных. Так, инструменты DM позволяют осуществлять поиск ассоциативных правил, т.е. определять часто встречающиеся наборы товаров, которые клиенты покупают единовременно.

Кроме перечисленных, к задачам Data Mining также относятся:

  • кластеризация – разбиение объектов на группы;
  • визуализация – создание графического образа анализируемых данных;
  • анализ отклонений – обнаружение и анализ данных, наиболее отличающихся от общего множества;
  • корреляция – нахождение зависимостей в наборе данных. Для их решения используются известные математические методы и алгоритмы, а также математическая статистика.

К методам и алгоритмам DM относятся: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ, иерархические методы кластерного анализа, методы поиска ассоциативных правил, в том числе алгоритм Apriori, и др.


Только технологии Data Mining на сегодняшний день позволяют выявить в накопленных массивах ретроспективных данных (зачастую весьма больших) скрытые закономерности, получить нетривиальные и неочевидные знания, имеющие большую практическую пользу. С помощью таких систем бизнес имеет возможность увеличить прибыль, привлечь большее количество клиентов и повысить их лояльность к компании.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su