Сайт находится в состоянии доработки. Извиняемся за неудобства.

x
© 1995-2019 Компания «Инфосистемы Джет» Разработано в Liqium
Информационная безопасность Вы говорите «Информационная безопасность…»
Автор
Алексей Сизов руководитель направления противодействия мошенничеству Центра информационной безопасности компании "Инфосистемы Джет"
Статей: 2 Фото-факт: 26

561

0.

12

0

3

Мы говорим "Защита бизнеса средствами машинного обучения и математического моделирования"

Эта статья не призвана нивелировать методы классической ИБ, схемы ручного контроля или наработанные практики. Большинство существующих мер позволяют обеспечить должный уровень защиты в 90, 95, а иногда даже в 99% случаев наступления риска. Но что делать с оставшимся 1%? Допустимо ли пропустить 1% от DDoS-атак? Скорее, да. Пропустить 1% от потенциального мошенничества? Скорее, нет. Даже одна операция в том же ДБО корпоративных клиентов может составлять десятки миллионов рублей, а значит, потери уже существенны. А если атак в сутки 1000, привлечение инвестиций для повышения уровня защиты более чем обосновано. Проблема в том, что защита от этого последнего процента может стоить компании не меньше, чем построение защиты от 99% существующих угроз (особенно если мы говорим о традиционных методиках защиты, таких как ручной или двойной контроль, разделение знаний).

 

Белыми играет антифрод

Что же это за 1%  с точки зрения того же антифрода? На самом деле проблема почти всегда локализуется:

  • в области социальной инженерии, когда противоправное действие проводится руками реального клиента или ничего не подозревающего сотрудника;
  • как новая схема атаки, обусловленная новой уязвимостью или появлением нового бизнес-процесса/технологии (риски для них еще не учтены, механизмы контроля не апробированы);
  • как действия сотрудника, обладающего высокими полномочиями в системах и осведомленного о существующих процессах контроля (это уже не совсем зона антифрода, но об этом необходимо упомянуть в данном контексте).

Как показывает наш многолетний опыт, именно эта тройка является зоной высокого риска для любой компании, и на деле не только в части противодействия мошенничеству.

Существуют 2 ключевых аспекта, которые стимулируют развитие методов машинного обучения в антифроде. Первый и наиболее важный — это работа с новыми типами мошенничества, неизвестными на текущий момент (о втором мы скажем чуть ниже). Сами факты атак, например, на АРМ КБР, SWIFT в банковской сфере — это, конечно, доказательства недостаточной защищенности отдельных компаний и влияние фактора принципиально нового вектора атаки. Методика выявления таких атак родилась почти сразу, она оказалась крайне простой, но прежде сотни миллионов рублей перекочевали в карман нескольких преступных группировок.

Эти примеры не уникальны. Как показывает практика, расследование нового паттерна мошенничества приводит к ситуации «если бы мы контролировали изменение характеристики Х в период Y при условии Z, эта схема была бы детектирована и потерь удалось бы избежать». Кто-то скажет: «Знал бы прикуп, жил бы в Сочи». но именно эта задача важна с точки зрения антифрода. Таким образом, с одной стороны, нужно контролировать максимум информации, с другой — иметь инструменты анализа этих пока непримечательных сведений с управляемыми показателями ошибок. Иными словами, необходимо иметь Big Data и использовать практики машинного обучения и аналитики.

И здесь нужно говорить сразу о трех векторах использования Maching Learning (ML).

  • Первый — применение моделей с учителем для повышения скорости реагирования на инциденты при сохранении оптимальных значений false positive. Как показывает опыт, эти алгоритмы неплохо выявляют не только схемы из обучающих выборок, но и новые атаки на дистанционных каналах, в которых действуют жесткие требования регуляторов на типы и формат операций, таких как ДБО или ПЦ.
  • Второй — детектор аномалий на базе моделей без учителя, а также гибридные иерархические модели. Детектор аномалий расширяет результаты rule-based-анализа и моделей с учителем. Гибридные схемы объединяют модели выявления аномалий и работают совместно с обучаемой моделью по оценке порогов аномалии. Они довольно точно детектируют подозрительные действия. При этом в первые месяцы это, скорее, механизм выявления ошибок в бизнес-процессах или нестандартных путей их реализации.
  • Третий, крайне распиаренный в последние годы вектор использования, — автопостроение rule-based-правил за счет матмоделей. По нашему опыту, метод сам по себе не гарантирует высоких показателей точности. Результаты должен оценивать эксперт, но для выявления закономерностей в новом тренде или просто статистической аномалии по событиям инструмент действительно полезен. Комбинация такого подхода с методами кластеризации и гибкими инструментами визуальной аналитики позволяет существенно сократить время на определение схемы новой атаки, ее вектора (бизнес-процесс или клиентский сегмент), а также помогает при определении схемы или точки компрометации. А что это: новая пара глаз для вашего аналитика или пятое колесо для вашего антифрода, — решать вам, но в любом случае одна голова хорошо, а две лучше, да и «запаска» еще никому не вредила. Это и есть второй аспект, стимулирующий развитие ML: разработка инструментов, реально помогающих аналитику, — повышающих скорость анализа и принятия решения.

А теперь подробнее.

 

Модели с учителем

 

Первыми реализациями на российском рынке были 2 модели. Одна — нейронные сети в одном модуле антифрода крупной процессинговой компании еще в 2000-х гг. Говорят, обучить ту нейронную сеть так и не удалось. Другая модель — blackbox-разработка компании RSA, работающая на существенно кастомизированной баейсовой модели. Именно она дала ответ на вопрос, какова эффективность матмодели в чистом виде.

Вектор развития именно неинтерпретируемых моделей с учителем (нейронная сеть, Gradient Boosted Trees или Random Forest) претерпел ряд изменений, но само направление зарекомендовало себя хорошо. Этот принцип используется в таких решениях, как Jet Detective и SAS. При этом изменился стандарт применения этих моделей. Сейчас компании повсеместно реализуют их у себя, и почти всегда требуется поддержка формата PMML, обеспечивающего перенос и свободную модификацию готовых или новых моделей между продуктами различных производителей. К тому же это исключает факт blackbox. В итоге гарантируются прозрачность, управляемость и кросс-платформенность применяемых моделей.

 

Пример применения модели Random Forest в решении Jet Detective — создание модели сегмента защиты операций ДБО. Входные условия: классическая перекошенная выборка 1:12 000 (фрода слишком мало относительно общего объема операций, т.е. на 1 случай фрода приходится 12 000 легитимных операций); 2 основных вектора атак: удаленное управление и вредоносное ПО. Показатели работы модели по ним — 0,4% false negative и 0,87% false positive. Последний показатель может быть снижен до 0,62% при применении ряда базовых правил работы с белыми списками получателей.

Второй пример — построение модели расчета вероятности внутреннего мошенничества при использовании бонусных карт. Модель обеспечила выявление фактов злоупотребления сотрудников с точностью «мошенничество : ложное срабатывание» — 20:3.

Ход за UEBA, EDR, WAF

 

Модели обучения с учителем также применяются в сегменте классических систем ИБ. Примеры — модели умной классификации тренда атаки и методы оценки схожести текущих событий с 2–3 экземплярами ранее зафиксированных атак. Такой подход используют многие. Но при этом на слуху, скорее, второй класс математического моделирования — модели без учителя, призванные выявлять именно отклонения от поведенческой модели или аномалии. Именно эта концепция лежит в основе UEBA, а также продуктов по контролю трафика, в частности WAF, ряда продуктов контроля end-point-устройств.

Потребность этого направления в элементах машинного обучения лежит на поверхности. End-point способен генерировать огромное количество данных по факту работы пользователя в приложении или на ПК (устройстве). Сам факт отклонения от привычной схемы работы не является инцидентом ИБ априори, но позволяет посмотреть на ситуацию шире. Сегодня модели выявления аномалий, применяемые к бизнес-процессам, а не к фиксированным технологиям, детектируют именно поведенческое отклонение от некой средней схемы исполнения процесса, например, выпуска банковской карты.

Особенно хорошо такие модели выявляют работу новых сотрудников (на такие инциденты даже вводится соответствующая поправка на анализ действий новичка), а также особых категорий сотрудников — VIP-менеджеров или технических специалистов. На их взаимодействие с системами свой отпечаток накладывает глубокое понимание технологий и взаимоотношений в компании. Таким образом, эксплуатация матмоделей без учителя на первых этапах приводит к выявлению не столько мошенничества, сколько скрытых схем реализации регламентированных процедур. Но всегда следует помнить о том, что почти любое мошенничество есть нарушение процесса, а значит, аномальное поведение.

 

Мы проводили испытания для модели без учителя на задаче выявления аномального поведения сотрудников на рабочих станциях. Анализу в среднем подвергались 300 000 операций сотрудников в день. Действия сотрудников контролировались в 3 учетных системах. Модель позволила идентифицировать ряд действий, впоследствии классифицированных как неправомерные, — например, просмотр состояния счета и выписки по последним операциям. Существующие методы контроля их не отлавливали. 

UBA vs IdM (или segregation of duty в современных условиях бизнеса)

 

Сегодня мы все чаще слышим и используем аббревиатуры, начинающиеся на «Е»: ЕИС — Единая информационная система, ЕПС — Единый портал сотрудника, ЕЛК — Единый личный кабинет и т.д. Это подтверждает тренд на объединение разрозненных систем в единое целое или миграцию на общую платформу. В этой парадигме возникает практическая задача — аудит полномочий пользователей в столь многофункциональной и многоролевой системе, а также задачи по идентификации процессов, выполняемых пользователями, и их соответствию ранее описанным алгоритмам работы. Раньше контроль полномочий (заведение нового функционала, отзыв неиспользуемого, контроль избытка полномочий) выполняли вручную и исключительно на базе описания роли. Сегодня в условиях работы тысяч сотрудников и неменьшего количества уникальных ролей и их комбинаций ручной контроль невозможен. Сами задачи создания ролевой структуры с предварительными условиями: уникальность подразделений, реализация требований 4 рук (разделения знаний) и т.д., — решаются не столько методами Machine Learning, сколько математическими алгоритмами и их комбинацией (кластеризацией, методами решения задач оптимального управления и др.). Такие методы есть и в больших IdM-решениях, и в аналитических платформах, например в Jet Detective. При этом созданная матрица прав требует периодического пересмотра. Определение самого момента пересмотра применительно к пользователю связано с профилированием: контролем поведения, механизмами выделения бизнес-процессов, которые выполняют сотрудники, через анализ их действий.

 

Анализ внешних источников

 

Еще один тренд — все большее использование внешних источников, начиная с feed’ов по IP, device fingerprint до данных карт, e-mail, номеров телефонов, реквизитов пользователей и платежных инструментов. Сегодня внешние источники предоставляют достаточный набор сведений для радикального повышения качества принимаемого решения практически в любом сегменте — от одобрения операции на площадке e-commerce до оценки заемщика и одобрения регистрации ТСП. Однако прямого соответствия параметров поиска при сравнении недостаточно. Особенность синтаксиса, недостаточная чистота данных, а также человеческий фактор требуют реализации механизмов поиска нечеткой логики (здесь имеется в виду, например, манипулирование особенностями языка: использование «е» и «ё», латинского алфавита вместо кириллицы и др.). Сегодня задачи поиска взаимосвязей лежат в самых разных областях: от проверки аффилированности сотрудников и контрагентов до поиска связей между заемщиками, страхователями или простыми пользователями стандартных систем: почты, IVR и др.

Возвращаясь к вариантам применения ML, а именно к функциям автогенерации rule-base- методов, стоит отметить, что реализуемые в Jet Detective механизмы позволяют в момент фиксации новых инцидентов подсказывать операторам ключевые тренды и атрибуты, отличающие зафиксированные операции от основного потока.

Jet Detective обладает гибким функционалом визуализации связей, которые определяются с помощью механизмов fuzzy logic и синтаксического анализа. Решение также позволяет строить карты рисков и рассчитывать корреляционные схемы оценки риска. Любая схема контроля, реализованная в решении, не только рассчитывает риск операции, действия или последовательности действий сотрудника, но и позволяет строить схемы наследований скоринга для таких объектов, как клиент, сотрудник, терминал.

Комбинируя такую функциональность с методами машинного обучения, мы построили схемы оценки принимаемого в компанию линейного персонала, оценки рисков страховых случаев по заявляемым убыткам, расширили модели оценки заемщиков.

Отдельно отметим, что решение не призвано заменить существующие системы ИБ, автоматизировать работу экспертов, управляющих сложными системами и поддерживающих процессы вокруг них в актуальном состоянии. Это помощник, который может содействовать в снижении вероятности наступления риска с описанного в начале 1% до 0,1%, а возможно, и до 0,01%. При этом он повышает эффективность работы ИБ-специалистов (сокращает время принятия решения, снижает влияние человеческого фактора) на существующем объеме инцидентов или процессов в классических средствах защиты.

В каком-то роде это инструмент автоматической аналитики. Приведем пример. при трансляции футбольного матча крайне интересна приводимая статистика по ударам: из какой точки поля, с какого расстояния вероятность гола была высока и реализовалась, в каком углу ворот вратарь меньше пропускает и т.д. Математическая модель делает примерно то же самое. Но только она подсказывает не как игроку бить, а как аналитику не пропустить мошенничество, причем модель в реальном времени подстраивается в соответствии с каждым фактом регистрации «гола». Например, она выделяет точки компрометации или ранжирует потенциальные схемы реализованной атаки исходя из ведущихся баз знаний. Это кратно повышает скорость выявления сегментов клиентов, наиболее подверженных риску атаки, или, наоборот, устанавливает организованные группы клиентов и сотрудников, осуществляющих противоправные действия.

 

Maching Learning — это не панацея и не «серебряная пуля» для решения всех проблем, это сложный механизм, работа с которым требует полной вовлеченности ресурсов, технических и трудовых. При этом все чаще возникают ситуации, когда только эта технология может быстро и эффективно решить проблемы бизнеса.

Следите за нашими обновлениями

Спасибо!
Ваш материал отправлен.
Мы с вами свяжемся
Предложить
авторский материал
Спасибо!
Вы подписались на обновления наших статей
Подписаться
на рубрику
Спасибо!
Ваша заявка отправлена.
Мы с вами скоро свяжемся.
Оформить
подписку на журнал
Спасибо!
Вы подписались на наши новости.
Оформить
подписку на Новости
Ваш комментарий отправлен.
После прохождения модерации комментарий будет опубликован на сайте.
Оставить
комментарий
Спасибо!
Ваша заявка отправлена.
Мы с вами скоро свяжемся.
Задать вопрос
редактору

Оставить заявку

Мы всегда рады ответить на любые Ваши вопросы

* Обязательные поля для заполнения

Спасибо!

Благодарим за обращение. Ваша заявка принята

Наш специалист свяжется с Вами в течение рабочего дня