ИТ-портал компании «Инфосистемы Джет»

«Вы говорите “информационная безопасностьˮ…»

«Вы говорите “информационная безопасностьˮ…»

Мы говорим «защита бизнеса средствами машинного обучения и математического моделирования».

Эта статья не призвана нивелировать методы классической ИБ, схемы ручного контроля или наработанные практики. Большинство существующих мер позволяют обеспечить должный уровень защиты в 90, 95, а иногда даже в 99% случаев наступления риска. Но что делать с оставшимся 1%? Допустимо ли пропустить 1% от DDoS-атак? Скорее, да. Пропустить 1% от потенциального мошенничества? Скорее, нет. Даже одна операция в том же ДБО корпоративных клиентов может составлять десятки миллионов рублей, а значит, потери уже существенны. А если атак в сутки 1000, привлечение инвестиций для повышения уровня защиты более чем обосновано. Проблема в том, что защита от этого последнего процента может стоить компании не меньше, чем построение защиты от 99% существующих угроз (особенно если мы говорим о традиционных методиках защиты, таких как ручной или двойной контроль, разделение знаний).

Белыми играет антифрод

Что же это за 1% с точки зрения того же антифрода? На самом деле проблема почти всегда локализуется:

• в области социальной инженерии, когда противоправное действие проводится руками реального клиента или ничего не подозревающего сотрудника;

• как новая схема атаки, обусловленная новой уязвимостью или появлением нового бизнес-процесса/технологии. Риски для них еще не учтены, механизмы контроля не апробированы;

• как действия сотрудника, обладающего высокими полномочиями в системах и осведомленного о существующих процессах контроля. Это уже не совсем зона антифрода, но тем не менее.

Как показывает наш многолетний опыт, именно эта тройка является зоной высокого риска для любой компании, и на деле не только в части противодействия мошенничеству.

Существуют 2 ключевых аспекта, которые стимулируют развитие методов машинного обучения в антифроде. Первый и наиболее важный — это работа с новыми типами мошенничества, не известными на текущий момент (о втором мы скажем чуть ниже). Сами факты атак, например, на АРМ КБР, SWIFT в банковской сфере — это, конечно, доказательства недостаточной защищенности отдельных компаний и влияние фактора принципиального нового вектора атаки. Методика выявления таких атак родилась почти сразу, она оказалась крайне простой, но прежде сотни миллионов рублей перекочевали в карман нескольких преступных группировок.

Эти примеры не уникальны. Как показывает практика, расследование нового паттерна мошенничества приводит к ситуации «если бы мы контролировали изменение характеристики Х в период Y при условии Z, эта схема была бы детектирована, и потерь удалось бы избежать». Кто-то скажет: «Знал бы прикуп, жил бы в Сочи», но именно эта задача важна с точки зрения антифрода. Таким образом, с одной стороны, нужно контролировать максимум информации, с другой — иметь инструменты анализа этих пока не примечательных сведений с управляемыми показателями ошибок. Иными словами, необходимо иметь Big Data и использовать практики машинного обучения и аналитики.

И здесь нужно говорить сразу о трех векторах использования Maching Learning (ML).

• Первый — применение моделей с учителем для повышения скорости реагирования на инциденты при сохранении оптимальных значений false positive. Как показывает опыт, эти алгоритмы неплохо выявляют не только схемы из обучающих выборок, но и новые атаки на дистанционных каналах, в которых действуют жесткие требования регуляторов на типы и формат операций, таких как ДБО или ПЦ.

Пример применения модели Random Forest в решении Jet Detective — создание модели сегмента защиты операций ДБО. Входные условия: классическая перекошенная выборка 1:12 000 (фрода слишком мало относительно общего объема операций, т.е. на 1 случай фрода приходится 12 000 легитимных операций), 2 основных вектора атак: удаленное управление и вредоносное ПО. Показатели работы модели по ним — 0,4% false negative и 0,87% false positive. Последний показатель может быть снижен до 0,62% при применении ряда базовых правил работы с белыми списками получателей.

Второй пример — построение модели расчета вероятности внутреннего мошенничества при использовании бонусных карт. Модель обеспечила выявление фактов злоупотребления сотрудников с точностью «мошенничество : ложное срабатывание» — 20:3.

• Второй — детектор аномалий на базе моделей без учителя, а также гибридные иерархические модели. Детектор аномалий расширяет результаты rule-based анализа и моделей с учителем. Гибридные схемы объединяют модели выявления аномалий и работают совместно с обучаемой моделью по оценке порогов аномалии. Они довольно точно детектируют подозрительные действия. При этом в первые месяцы это, скорее, механизм выявления ошибок в бизнес-процессах или нестандартных путей их реализации.

• Третий, крайне распиаренный в последние годы вектор использования, — автопостроение rule-based правил за счет матмоделей. По нашему опыту, метод сам по себе не гарантирует высоких показателей точности. Результаты должен оценивать эксперт, но для выявления закономерностей в новом тренде или просто статистической аномалии по событиям инструмент действительно полезен. Комбинация такого подхода с методами кластеризации и гибкими инструментами визуальной аналитики позволяет существенно сократить время на определение схемы новой атаки, ее вектора (бизнес-процесс или клиентский сегмент), а также помогает при определении схемы или точки компрометации. А что это: новая пара глаз для вашего аналитика или пятое колесо для вашего антифрода, — решать вам, но в любом случае одна голова хорошо, а две лучше, да и «запаска» еще никому не вредила. Это и есть второй аспект, стимулирующий развитие ML: разработка инструментов, реально помогающих аналитику, — повышающих скорость анализа и принятия решения.

А теперь подробнее.

Модели с учителем

Первыми реализациями на российском рынке были 2 модели. Одна — нейронные сети в одном модуле антифрода крупной процессинговой компании еще в 2000-х гг. Говорят, обучить ту нейронную сеть так и не удалось. Другая модель — blackbox-разработка компании RSA, работающая на существенно кастомизированной баейсовой модели. Именно она дала ответ на вопрос, какова эффективность матмодели в чистом виде.

Вектор развития именно неинтерпретируемых моделей с учителем (нейронная сеть, Gradien Bossted Tree или Random Forest) претерпел ряд изменений, но само направление зарекомендовало себя хорошо. Этот принцип используется в таких решениях, как Jet Detective и SAS. При этом изменился стандарт применения этих моделей. Сейчас компании повсеместно реализуют их у себя, и почти всегда требуется поддержка формата PMML, обеспечивающего перенос и свободную модификацию готовых или новых моделей между продуктами различных производителей. К тому же это исключает факт blackbox. В итоге гарантируются прозрачность, управляемость и кроссплатформенность применяемых моделей.

Ход за UEBA, EDR, WAF

Модели обучения с учителем также применяются в сегменте классических систем ИБ. Примеры — модели умной классификации тренда атаки и методы оценки схожести текущих событий с 2–3 экземплярами ранее зафиксированных атак. Такой подход используют многие. Но при этом на слуху, скорее, второй класс математического моделирования — модели без учителя, призванные выявлять именно отклонения от поведенческой модели или аномалии. Именно эта концепция лежит в основе UEBA, а также продуктов по контролю трафика, в частности WAF, ряда продуктов контроля end-point-устройств.

Словарь безопасника

UEBA — User and Entity Behavior Analytics (UBA — User Behavior Analytics).

EDR — Endpoint Detection and Response.

PMML — Predictive Model Markup Language.

WAF — Web Application Firewall.

Потребность этого направления в элементах машинного обучения лежит на поверхности. End-point способен генерировать огромное количество данных по факту работы пользователя в приложении или на ПК (устройстве). Сам факт отклонения от привычной схемы работы не является инцидентом ИБ априори, но позволяет посмотреть на ситуацию шире. Сегодня модели выявления аномалий, применяемые к бизнес-процессам, а не к фиксированным технологиям, детектируют именно поведенческое отклонение от некой средней схемы исполнения процесса, например, выпуска банковской карты.

Особенно хорошо такие модели выявляют работу новых сотрудников (на такие инциденты даже вводится соответствующая поправка на анализ действий новичка), а также особых категорий сотрудников — VIP-менеджеров или технических специалистов. На их взаимодействие с системами свой отпечаток накладывает глубокое понимание технологий и взаимоотношений в компании. Таким образом, эксплуатация матмоделей без учителя на первых этапах приводит к выявлению не столько мошенничества, сколько скрытых схем реализации регламентированных процедур. Но всегда следует помнить о том, что почти любое мошенничество есть нарушение процесса, а значит, аномальное поведение.

Мы проводили испытания для модели без учителя на задаче выявления аномального поведения сотрудников на рабочих станциях. Анализу в среднем подвергались 300 000 операций сотрудников в день. Действия сотрудников контролировались в 3 учетных системах. Модель позволила идентифицировать ряд действий, впоследствии классифицированных как неправомерные, например, просмотр состояния счета и выписки по последним операциям. Существующие методы контроля их не отлавливали.

UBA vs IdM (или segregation of duty в современных условиях бизнеса)

Сегодня мы все чаще слышим и используем аббревиатуры, начинающиеся на «Е»: ЕИС — Единая информационная система, ЕПС — Единый портал сотрудника, ЕЛК — Единый личный кабинет и т.д. Это подтверждает тренд на объединение разрозненных систем в единое целое или миграцию на общую платформу. В этой парадигме возникает практическая задача — аудит полномочий пользователей в столь многофункциональной и многоролевой системе, а также задачи по идентификации процессов, выполняемых пользователями, и их соответствию ранее описанным алгоритмам работы. Раньше контроль полномочий (заведение нового функционала, отзыв неиспользуемого, контроль избытка полномочий) выполняли вручную и исключительно на базе описания роли.

Сегодня в условиях работы тысяч сотрудников и не меньшего количества уникальных ролей и их комбинаций ручной контроль невозможен. Сами задачи создания ролевой структуры с предварительными условиями: уникальность подразделений, реализация требований 4 рук (разделения знаний) и т.д., — решаются не столько методами Machine Learning, сколько математическими алгоритмами и их комбинацией (кластеризацией, методами решения задач оптимального управления и др.). Такие методы есть и в больших IdM-решениях, и в аналитических платформах, например, в Jet Detective. При этом созданная матрица прав требует периодического пересмотра. Определение самого момента пересмотра применительно к пользователю связано с профилированием: контролем поведения, механизмами выделения бизнес-процессов, которые выполняют сотрудники, через анализ их действий.

Анализ внешних источников

Еще один тренд — все большее использование внешних источников, начиная с feed’ов по IP, device fingerprint до данных карт, e-mail, номеров телефонов, реквизитов пользователей и платежных инструментов. Сегодня внешние источники предоставляют достаточный набор сведений для радикального повышения качества принимаемого решения практически в любом сегменте — от одобрения операции на площадке e-commerce до оценки заемщика и одобрения регистрации ТСП. Однако прямого соответствия параметров поиска при сравнении недостаточно. Особенность синтаксиса, недостаточная чистота данных, а также человеческий фактор требуют реализации механизмов поиска нечеткой логики (здесь имеется в виду, например, манипулирование особенностями языка: использование «е» и «ё», латинского алфавита вместо кириллицы и др.). Сегодня задачи поиска взаимосвязей лежат в самых разных областях: от проверки аффилированности сотрудников и контрагентов до поиска связей между заемщиками, страхователями или простыми пользователями стандартных систем: почты, IVR и др.

Jet Detective обладает гибким функционалом визуализации связей, которые определяются с помощью механизмов fuzzy logic и синтаксического анализа. Решение также позволяет строить карты рисков и рассчитывать корреляционные схемы оценки риска. Любая схема контроля, реализованная в решении, не только рассчитывает риск операции, действия или последовательности действий сотрудника, но и позволяет строить схемы наследований скоринга для таких объектов, как клиент, сотрудник, терминал.

Комбинируя такую функциональность с методами машинного обучения, мы построили схемы оценки принимаемого в компанию линейного персонала, оценки рисков страховых случаев по заявляемым убыткам, расширили модели оценки заемщиков.

Отдельно отметим, что решение не призвано заменить существующие системы ИБ, автоматизировать работу экспертов, управляющих сложными системами и поддерживающих процессы вокруг них в актуальном состоянии. Это помощник, который может содействовать в снижении вероятности наступления риска с описанного в начале 1% до 0,1%, а возможно и до 0,01%. При этом он повышает эффективность работы ИБ-специалистов (сокращает время принятия решения, снижает влияние человеческого фактора) на существующем объеме инцидентов или процессов в классических средствах защиты.

Возвращаясь к вариантам применения ML, а именно к функциям автогенерации rule-base методов, стоит отметить, что реализуемые в Jet Detective механизмы позволяют в момент фиксации новых инцидентов подсказывать операторам ключевые тренды и атрибуты, отличающие зафиксированные операции от основного потока.

В каком-то роде это инструмент автоматической аналитики. Приведем пример: при трансляции футбольного матча крайне интересна приводимая статистика по ударам: из какой точки поля, с какого расстояния вероятность гола была высока и реализовалась, в каком углу ворот вратарь меньше пропускает и т.д. Математическая модель делает примерно то же самое. Но только она подсказывает не как игроку бить, а как аналитику не пропустить мошенничество, причем модель в реальном времени подстраивается в соответствии с каждым фактом регистрации «гола». Например, она выделяет точки компрометации или ранжирует потенциальные схемы реализованной атаки исходя из ведущихся баз знаний. Это кратно повышает скорость выявления сегментов клиентов, наиболее подверженных риску атаки, или, наоборот, устанавливает организованные группы клиентов и сотрудников, осуществляющих противоправные действия.

***

Maching Learning — это не панацея и не серебряная пуля от всех проблем, это сложный механизм, работа с которым требует полной вовлеченности ресурсов, технических и трудовых. При этом все чаще возникают ситуации, когда только эта технология может быстро и эффективно решить проблемы бизнеса.

Вернуться к списку статей
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su