— Николай, сегодня тематика машинного обучения очень популярна, с ее помощью пытаются решать самые разные задачи. Как вы считаете, в каких случаях технология действительно полезна, а в каких она не сможет дать нужные результаты?
Николай: Заказывая какое-либо решение или продукт, компании в своем большинстве хотят получить большую красную кнопку с надписью «Победить». Это относится не только к машинному обучению, также было с BI, Big Data и другими направлениями. Но такой подход никогда не сработает — у любой технологии есть своя ниша, и сама компания должна быть готова к ее использованию. Когда о машинном обучении говорят в подобном ключе, мне на ум приходит одна хорошая поговорка: «Когда полководцы хотят выиграть битву, они покупают пушки. Если они хотят выиграть войну — строят дороги». В случае с Machine Learning (ML) нужно именно «строить дороги», потому что технология требует высокого уровня зрелости, понимания задач и наличия определенных ресурсов у компании. При наложении на соответствующую основу технология может дать существенный прирост эффективности и показать ощутимый результат в самых разных сферах. Если же «покупать пушки» и пытаться разместить на своем рабочем столе кнопку «Победить», когда в организации полный бардак, ничего не категорировано, процессы не построены, эффекта не будет. В этом случае технология получит только негативные оценки.
— И тем не менее в любой громкой ИТ-теме присутствует доля так называемой маркетинговой шелухи. Много ли ее в сфере ML?
— Я считаю, что любая маркетинговая шелуха имеет свои плюсы, хотя бы по той причине, что любой технологии нужны инвестиции, нужны средства для развития, пока готовые решения не достигли определенного уровня зрелости. Если бы не было этой шелухи, привлекающей всеобщее внимание, многие компании, потенциально готовые работать с новаторскими решениями, просто не стали бы вкладываться в них. И тогда даже перспективная технология вечно оставалась бы сырой. Любой стартап сначала нужно «надуть», вложить в него деньги, и только потом может появиться готовый продукт. В сфере машинного обучения много мифов и легенд, но есть и масса уже доказавших свою состоятельность решений. В конечном счете ML базируется на проверенном математическом аппарате, и вопрос сегодня скорее не в самой технологии, а в том, как ее применять и насколько мы действительно к ней готовы.
— Расскажите подробнее, какие процессы должны быть выстроены, какими должны быть уровень инфраструктуры и другие условия, чтобы технология машинного обучения могла принести плоды?
— Машинное обучение отличается от других технологий тем, что оно опирается на очень большой объем знаний, которые необходимо подготовить соответствующим образом. Первое, что должна сделать компания, — определить область для применения технологий ИИ. Второе — подготовить источники, из которых данные будут передаваться системе ML. Третье — определить, что они хотят получить на выходе. Пока у вас нет четких ответов на эти вопросы, эффекта от внедрения не будет, потому что на любом этапе вы будете сначала выполнять подготовительную работу.
— А если говорить об информационной безопасности (ИБ), где машинное обучение может дать максимальный эффект?
— Я бы не выделял какую-то одну область — ML нужно применять там, где высока степень неопределенности, где человек не способен справиться с растущим объемом информации и где нужно проводить сложную классификацию, прогнозировать события. В конечном счете машинный интеллект помогает там, где нужна быстрая реакция. Например, эти технологии хорошо ложатся в архитектуру SOC (Security Operation Center) или CERT (Computer Emergency Response Team). Грамотное применение ML может позволить выявлять угрозы нулевого дня в режиме реального времени, когда сама методология атаки неизвестна, но есть набор признаков, по которым те или иные действия можно квалифицировать как злонамеренные.
Например, в нашей организации мы тестируем ML для обнаружения случаев неслужебного использования информации. По факту этот тот же антифрод, но в другой плоскости. Как такового фрода у нас нет — несанкционированного доступа к данным не происходит. Но при этом есть достаточно большой объем информации, предназначенной для определенных целей. Машинное обучение позволяет выстроить типовые процессы работы с информацией и обнаруживать отклонения, определяя, можно ли считать их инцидентами. Таким образом, система ИИ помогает зафиксировать случаи, когда информация используется не для тех целей, для которых была собрана.
И это только несколько примеров. В принципе, у ML огромный потенциал: на базе таких решений можно отслеживать физические перемещения объектов или людей, анализировать события в информационных потоках и т.д. Я бы сказал, что каждая компания индивидуально принимает решение, где машинное обучение может быть полезно, какие данные можно передать ИИ и какие результаты нужно получить. Поэтому применять решения можно в самых разных областях.
— Есть ли ограничения у технологии, — например, ситуации, которые машина не сможет просчитать? Где проходит граница, за которую ИИ пускать нельзя?
— Для технологии всегда есть предел. Например, в направлении антифрод ML проводит только первичный анализ данных и отлавливает возможные инциденты для дальнейшего разбора аналитиками. Опираясь на свои знания и опыт, они выносят окончательный вердикт и решают, когда информация используется не по назначению.
Доверить решение машине полностью очень сложно, так как существуют факторы, которые нельзя автоматизировать в принципе. Например, сотрудника всю неделю выдергивают на совещания, а после этого он опять начинает работать. При этом система ML уже сформировала его профиль, и типичная работа после такого перерыва будет выглядеть аномально. Поэтому я считаю, что в аналитических системах машинное обучение должно увеличивать точность обнаружения, а не принимать решения автоматически.
Если мы возьмем внешний сегмент защиты, например уже упомянутые SOC или CERT, в них степень автоматизации зависит от предметных областей. Иначе говоря, алгоритмам можно дать определенную свободу воли, если их действия не будут касаться технических процессов. При обнаружении странных действий на некритичных ресурсах их можно заблокировать до дальнейших разъяснений. А если «странности» являются характерной чертой какой-то системы, нужно, наоборот, запретить не только блокировать их, но и выдавать отвлекающие уведомления. Иными словами, каждая компания должна проанализировать области применения ИИ и жестко ограничить набор автоматизированных действий в зависимости от степени риска и возможных последствий из-за блокировки или, наоборот, ее отсутствия. Нужно решить для себя, подключать ли новую технологию к средствам активного воздействия или только к средствам аналитики, оставляя последнее слово за человеком.
— Приведите, пожалуйста, примеры задач, когда использование ML может вывести их решение на новый уровень.
— В дополнение к уже упомянутым SOC сейчас активно развивается тема UEBA (User and Entity Behavioral Analytics), машинное обучение можно успешно применять для профилирования действий пользователей. Также подходят любые задачи, где можно организовать сбор данных и сформировать базу для обучения.
Например, люди входят в здание по картам, за счет системы видеонаблюдения и других технологий можно фиксировать их местоположение вплоть до квадрата 2×2 метра. Отслеживая физические перемещения разных людей, можно выстроить устойчивые и случайные социальные связи. Дополняя это данными из внутреннего мессенджера, вы узнаете, с кем переписываются люди, какие файлы передают и т.д. Через систему контроля баз данных можно профилировать действия пользователей и категорировать их доступ к информации. Но следует помнить, что в конечном счете все упирается в задачу.
Сегодня можно собирать очень много данных, но в итоге не получить ничего полезного, так как нет никакой конкретной задачи.
Более того, каждое событие может относиться к нескольким процессам, поэтому в первую очередь нужно определять область, которую вам необходимо исследовать. Например, при внедрении машинного обучения можно выявить зависимость количества безуспешных попыток подбора пароля от удоя коров в Калужской области. С точки зрения ИИ такие взаимосвязи ничем не хуже и не лучше других, но что вы будете делать с такой корреляцией? Не нужно впадать в крайности и собирать все данные подряд. При машинном обучении важны только те события, которые касаются конкретного процесса. «Зачем фиксировать перемещение иконок на рабочем столе, если вас интересуют системы АСУ ТП?» — подобные вопросы приходится часто задавать аналитикам, когда они хотят собрать максимум данных, не сформулировав толком, как затем будут их использовать.
— Взаимодействие человека и самообучающейся машины требует новых экспертных навыков не только от аналитиков, но и от обычных пользователей. Есть ли опасность того, что многие ИБ-специалисты просто не смогут эксплуатировать интеллектуальные ИБ-системы на должном уровне?
— Если у человека хорошая база, за 2–3 месяца подготовки он будет владеть любыми технологиями на среднем уровне. Это гораздо более практично, чем постоянно искать людей, которые хороши в конкретной сфере, потому что узкоспециализированные специалисты создают узкое место в кадровой стратегии организации. Условно говоря, очень легко подготовить человека, который будет делать 5000% нормы, намного сложнее подготовить 100 человек, которые делают 100% нормы — ни процентом больше, ни процентом меньше. При необходимости можно освоить все новые технологии и «фишки» прямо в ходе проекта. Когда у вас работают люди, которые умеют учиться и обладают хорошими фундаментальными знаниями, появление новых технологий не проблема.
Заказывая какое-либо решение или продукт, компании в своем большинстве хотят получить большую красную кнопку с надписью «Победить».
Но вопрос, быть может, вообще в другом: а нужно ли гнаться за самым передовым? На Северном полюсе полярники пользуются техникой 1980-х годов. Да, эти машины не такие комфортные и красивые, зато надежные и легко заводятся, в то время как иностранная техника стоит на приколе. В ИТ и ИБ то же самое. Пока технология решает поставленные задачи, не нужно гнаться за последними веяниями. Глобальные системы не меняются. Достаточно раз в 3–4 года проводить обновление, а также модернизировать решение, когда оно перестает удовлетворять поставленным задачам. И все новые функции, новые методы анализа нужно рассматривать только в привязке к результатам, которые вы хотите получить. Так что я сомневаюсь, что с внедрением машинного обучения произойдут какие-то прорывные изменения.
— А что вы можете сказать о специалистах по машинному обучению? На рынке труда их мало, зарплатные ожидания у них высокие. Расскажите, как вы формировали свою команду, по каким критериям их отбирали.
— Из-за специфики нашей организации мы отдаем такие процессы на аутсорсинг, заключая госконтракты. Однако у нас есть бизнес-аналитики, которые могут грамотно выполнить постановку задач для специалистов по ML и принять у них результаты работы. Они могут оценить, что будет эффективно, а что нет. Таким образом, в нашем подразделении инженеры занимаются установкой, внедрением и поддержкой средств ИБ, а аналитики могут определить характер инцидента и взаимодействуют с другими подразделениями.
Мы стараемся воспитывать специалистов самостоятельно, в МИФИ для этого создана базовая кафедра финансового мониторинга, где студенты получают достаточно сильную математическую подготовку. Мы присматриваем будущих сотрудников на этапе диплома, а затем берем их на работу. Готовых специалистов действительно нет — большинство программ в институтах устарело. Когда я сам преподавал в МИФИ, мне выдали программу «Основы информационной безопасности». К своему удивлению, я увидел, что половина занятий посвящена правилам оформления допусков к гостайне.
В итоге я давал другой материал, но многих специалистов готовят по устаревшим программам, и им приходится учиться в рабочем процессе. Например, я сам — специалист не по ИБ, а по ИТ (окончил МИФИ по специальности «вычислительные машины, комплексы, системы и сети»). Но за два года параллельного изучения информационной безопасности на рабочем месте я нормально влился в ряды «безопасников».
Машинное обучение отличается от других технологий тем, что оно опирается на очень большой объем знаний, которые необходимо подготовить соответствующим образом. Первое, что должна сделать компания, — определить область для применения технологий ИИ. Второе — подготовить источники, из которых данные будут передаваться системе ML. Третье — определить, что они хотят получить на выходе.
— Возникают ли законодательные проблемы при внедрении ML? Возможны ли сквозные автоматизированные процессы, проходящие под контролем машины, которая будет передавать человеку только спорные случаи, а типовые задачи обрабатывать автоматически?
— Проблема может возникнуть, если мы доверим ИИ юридически значимые решения. Даже в самой популярной теме, за счет которой начало развиваться машинное обучение, — в финансовом скоринге. На данный момент под оценкой платежеспособности клиентов ставит подпись человек. Сотрудник одобряет кредит или отказывает в нем. Несмотря на то что в программе Электронного правительства РФ машинному обучению посвящено достаточно много разделов, наша судебная система ориентирована на человека. Пока не ясно, как наказывать систему, если что-то пошло не так. Кто должен отвечать: постановщик задачи, разработчик или тот, кто эксплуатирует решение? Иначе будут курьезы, как в Древней Греции, когда море высекли кнутом: накажут серверы, посадят их в тюрьму. Пока ИИ остается рекомендательной системой.
Тем не менее в мире есть примеры подобной автоматизации. В Китае создана система социального рейтинга, на основе которого права человека могут быть ограничены. Но в Китае отношения государства и человека очень специфичны, и эту практику нельзя просто так распространить на другие страны.
— Вернемся в Россию… Расскажите, как вы обосновывали затраты на построение системы машинного обучения? Как вообще можно оправдать использование ML в ИБ?
— У подобной системы несколько стадий становления. На первом этапе роль играют регуляторы — ФСТЭК и ФСБ. Средства безопасности должны соответствовать их требованиям, и тут мы просто должны были разработать решение согласно регламентам защиты данных. Далее требуется обеспечить соответствие работы системы бизнес-задачам, а это сложнее. Вообще, риски ИБ непросто оценить с финансовой стороны, но я уверен, что любая ИТ- или ИБ-система, которая уменьшает степень хаоса, уже приносит компании прибыль.
Например, за счет наведения порядка новое решение поможет найти узкие места в инфраструктуре, выявить дублирующие компоненты, обнаружить неиспользованные ресурсы, сотрудников, которые не загружены, и т.д. Любой крупный бизнес (у мелкого, увы, нет мотивации для внедрения сложных ИБ-систем) может сократить расходы и повысить уровень автоматизации за счет внедрения интеллектуальных средств безопасности. Зачастую, если правильно формализовать и выстроить процессы, внедрение новых решений помогает структурировать данные и улучшить бизнес-метрики, принося компании прямую экономическую выгоду.
— На каком этапе находится проект внедрения машинного обучения в Росфинмониторинге? Есть ли у вас планы дальнейшего развития?
— Мы сейчас находимся в середине пути. Наша основная задача — повышение точности определения фактов неслужебного использования информации. Полномочия нашей службы постоянно расширяются, часть процессов мы просто не успеваем формализовывать, часть — формализации не поддается. За счет машинного обучения мы хотим наладить их распознавание, сократить до минимального объема необходимость настройки и работать с инцидентами в реальном времени. Вообще, я бы сказал, что направление антифрода — одно из самых сложных для машинного обучения. Если мы получим хорошие результаты на этом проекте, дальше будем внедрять CERT и собирать дополнительную информацию для SOC.