Машинное обучение уже среди нас, кейсы внедрения в разные сферы

В исследовании MIT Technology Review, проведенном в конце прошлого года, говорится, что 60% компаний в том или ином виде используют машинное обучение в своем бизнесе. Причем каждая четвертая из них уверена, что уже смогла с помощью этой технологии добиться конкурентного преимущества. Пришло время рассказать, что такое машинное обучение, какие у него перспективы и какие преимущества оно дает бизнесу.

О чем речь?

Однажды в Гарварде поставили эксперимент. Два социальных психолога попросили студенток отметить в анкете, включающей такие строки, как «ситуация на работе», «физическое самочувствие», «продолжительность сна» и т.п., в какой мере все перечисленное сказывается на их настроении. Затем ученые несколько месяцев наблюдали за девушками и фиксировали, как на самом деле влияют на них эти факторы. Выяснилось следующее. Во-первых, все студентки в своих анкетах отвечали примерно одно и то же. Во-вторых, никакой корреляции между их ответами и реальным положением дел не обнаружено.

Исследование подтвердило известную истину: картина мира отдельного человека не всегда совпадает с реальностью. Когда кредитные эксперты выдают ненадежные кредиты, это может происходить в том числе и по причине искаженного мировосприятия, сформированного из-за отсутствия обратной связи. Совсем по-другому работает машинное обучение — один из самых эффективных подходов к применению искусственного интеллекта в практической деятельности.

Методы машинного обучения относятся к классу систем поддержки принятия решений, которые сообщают пользователям о событиях или дают рекомендации о необходимых действиях. Проще говоря, машинное обучение — это область, основанная на принципах математической статистики и теории вероятности. Есть набор исходных данных и есть математическая концепция, соединяя их, получают математическую модель. В дальнейшем новые данные загружаются в математическую модель, она их анализирует и выносит вердикт.

Каковы успехи? Кейсы, кейсы, кейсы…

Основные успешные кейсы, связанные с применением машинного обучения, относятся к трем основным типам задач:

Классификация. Переменная может принимать только два значения: желтые мячи кладем в первую корзину, красные — во вторую и т.д. Один из самых известных примеров — распознавание образов: машина уже распознает образы лучше человека.

Регрессия. Машина предсказывает любое вещественное число. Это может быть предсказание загруженности дорог, прогноз, сколько товара необходимо закупить ритейлеру, чтобы он не оставался на складе, но при этом его хватило, чтобы удовлетворить потребительский спрос, и т.д.

Обучение без учителя. Это выявление аномалий. Существует так называемое обучение с учителем, когда есть заранее известные ответы, на которых машина учиться. В обучении без учителя нет четко поставленной задачи и нет правильных ответов. Машине отдают данные, и она должна выявить аномалии: например, на центр обработки данных (ЦОД) идет DDoS-атака, машина поможет быстро понять, какой трафик мусорный и откуда идет атака.

Медицина

Самый известный пример из медицинской сферы — суперкомпьютер IBM Watson, оснащенный вопросно-ответной системой искусственного интеллекта. За 2 года Watson изучил 605 тысяч медицинских документов, проанализировал 25 тысяч историй болезни и проработал 14,7 тысячи часов для тонкой настройки алгоритмов.

Сейчас средняя точность назначения оптимального лечения после диагностирования рака легких в больницах США составляет 50%, т.е. в половине случаев врачи рекомендуют не самый лучший курс лечения и не идеальные препараты. У компьютера IBM Watson, который работает по методу бинарной классификации, точность назначения оптимального лечения составляет 90%.

Ритейл

Ритейл — низкомаржинальный бизнес: средняя маржинальность варьирует от 3 до 7%. Владельцам бизнеса интересна оптимизация даже на 0,5%. Поэтому в первую очередь здесь обращают внимание на маркетинг, важной частью которого является персонализированное предложение конкретному человеку. Можно вспомнить историю из США, когда в семью прислали скидочные купоны на подгузники и детское питание. Аналитический отдел магазина узнал о положении девушки раньше ее родных, проанализировав статистику ее запросов. Метод регрессии позволяет ритейлу анализировать товарные остатки и оптимизировать логистику.

Промышленность

В трубных цехах одного металлургического завода периодически возникали массовые отбраковки по дефектам металлургического и прокатного производства. В таких случаях в короткие сроки было необходимо найти и устранить причину для недопущения дальнейшего производства брака. Для решения этой задачи было разработано решение на основе машинного обучения. Математическая модель обрабатывала данные по химическому составу сырья, прокатному стану, оборудованию и его износу и т.д. Если на этапе выплавки появлялся брак, разработанное решение позволяло выявить причины брака в 49% случае, что давало существенную экономию ресурсов и времени на его устранение.

Политика

Сразу после победы Дональда Трампа на президентских выборах США швейцарский журнал «Das Magazin» опубликовал расследование, согласно которому эпатажный бизнесмен обошел Хиллари Клинтон во многом благодаря технологии, разработанной ученым Михаилом Козинским. Она опиралась на Большие данные, и с ее помощью компания Cambridge Analytica, работающая на Трампа, доносила определенные месседжи для американцев, основываясь на их предпочтениях в Facebook (всего было разработано 32 психотипа).

О том, что успех во многом обусловлен машинным обучением, никто из штаба Дональда Трампа открыто не заявлял, поэтому мы не можем утверждать это однозначно. Но есть несколько фактов, указывающих на это. Во-первых, три четверти рекламного бюджета избирательной кампании было потрачено Трампом на продвижение в сети. Во-вторых, республиканец проиграл по общему голосованию, но победил после подсчета голосов выборщиков: ему отдали 306 из 538. В общем, если кто-то ходит, как утка, и крякает, как утка, — скорее всего, это утка.

Банковская сфера

В самой консервативной из перечисленных здесь отраслей реализовали кейс, напоминающий фантастический фильм «Особое мнение». Мы приведем только один достаточно узкий кейс, но на его примере можно понять, какие широкие возможности предоставляет машинное обучение на поле борьбы с мошенничеством в банках.

Компания «Инфосистемы Джет» разработала для Сбербанка модель, которая детектирует поведение работников банка, и, если оно становится аномальным, сигнализирует службе безопасности банка. В качестве одного из примеров приведем следующий кейс. В банках есть определенное количество «спящих счетов». Открывшие их люди по разным причинам не обращались больше в банк. По данным ЦБ, таких вкладов около 3%. И если подделать карту и вывести деньги с такого счета, никто не заметит. Если машина выявляет какую-то аномалию в поведении сотрудника, его не увольняют, но за его работой начинают наблюдать пристальнее. Если несколько дней подряд кто-то проверяет счета, а затем выдаются карты, привязанные к счетам, по которым долгое время не происходило никаких движений, офицер безопасности может заподозрить мошенничество со стороны сотрудника банка и потребовать проведения более тщательной служебной проверки.

Не будем перечислять все направления, в которых машинное обучение может помочь банковскому бизнесу, просто назовем 8 самых интересных.

Next-best-action для увеличения ARPU. Прогнозирование следующей оптимальной активности с существующим клиентом. Позволяет увеличить конверсию продаж услуг и продуктов, что увеличивает показатели ARPU и LTV.
Лучшее маркетинговое предложение. Выбор оптимальной целевой группы для коммуникации в рамках маркетинговой программы. За счет оптимального подбора людей, для которых это предложение сейчас актуально, растет конверсия в продажи.
Прогноз оптимальных тарифов. Подбор характеристик тарифов для оптимизации уровня конверсии. Позволяет подбирать оптимальные характеристики тарифов для выбранных групп существующих клиентов, что увеличивает конверсию продаж.
Прогноз досрочного закрытия депозита. Прогнозирование в заданном промежутке времени досрочного закрытия депозита клиентом. Позволяет принять ряд мер для снижения этой вероятности, а также оценить вероятность снижения объема основных средств.
Кредитный скоринг заявок. Скоринг поступающих заявок на кредит на базе существующей популяции клиентов и макроэкономических событий как для физических, так и для юридических лиц. Позволяет снизить риски просрочек и невозвратов.
Прогноз возникновения просрочки по действующим кредитным договорам. Позволяет оценивать риски, связанные с необходимостью частичного или полного залогового покрытия просроченных платежей.
Прогноз стоимости основных активов. Прогноз стоимости составных частей (ценные бумаги, недвижимость) основных активов на заданный промежуток времени. Позволяет точнее оценивать риски, связанные с объемом основных активов и целесообразностью их покупки или продажи.
Контроль исполнения скриптов операторами. Помогает определять операторов, которые могли что-то предложить, но решили этого не делать и быстро закончили разговор.

Кто продает услуги machine learning

1. Интернет-компании. Для компаний типа Яндекс и Google машинное обучение — один из видов бизнеса, они в этой области — эксперты. Занимаются разработкой для собственных нужд, а потом пытаются использовать эти решения, предоставляя сервисы другим игрокам.

2. Стартапы. Обычно это небольшие компании, в которых собрались несколько Data Scientist. Нацелены на узкоспециализированные задачи.

3. Интеграторы, консалтер, крупные вендоры. Компании, которые ориентируются на прикладные задачи крупного бизнеса, способны быстро и комплексно решить задачу бизнеса с помощью машинного обучения.

Что будет дальше?

Если брать хайп-цикл Gartner, сейчас машинное обучение только прошло пик чрезмерных ожиданий, и начался этап «избавление от иллюзий». Раньше машинным обучением занимались преимущественно продуктовые и интернет-компании, но уже в ближайшие годы эта технология будет запускаться во всех сферах бизнеса как сопровождающая. Можно констатировать, что этот процесс — главный тренд в машинном обучении на ближайшие годы.

Основной драйвер роста — успешные проекты, ставшие публичными кейсами. Чем больше их будет, тем быстрее компании убедятся, что машинное обучение действительно работает. На сегодняшний день публичных кейсов по внедрению технологий машинного обучения, где бизнес озвучивал бы полученные преимущества, очень мало. Но их будет все больше, и со временем определятся сферы, где внедрение технологии наиболее востребовано. Скорее всего, первыми областями, где начнется внедрение, будут маркетинг, логистика, банковская сфера, первичный набор сотрудников.

По нашим оценкам, в ближайшие годы, когда шум вокруг технологии окончательно сойдет на нет, на выходе мы получим компании, где это работает, best practice, как внедрять технологию, общих интеграторов и нишевых экспертов. Сформируется рынок специалистов-практиков, которые уже будут не просто математиками, но и смогут запустить технологию в компании. Уже сейчас возможности машины существенно превосходят возможности любой команды аналитиков. Компании, оседлавшие тренд одними из первых, накопят экспертизу и станут лидерами в своих областях.

Что делать компаниям?

21 июля этого года президент Сбербанка Герман Греф во время лекции в Балтийском федеральном университете им. И. Канта заявил, что «современным компаниям не нужны юристы без знаний в области искусственного интеллекта и понимания того, как работают современные компьютерные технологии». Герман Оскарович славится хлесткими заявлениями, но нельзя сказать, что в данном случае он неправ. В общем- то, президент Сбербанка говорит о компетенциях Data Scientist.

Data Scientist — это эксперт по аналитическим данным. Точный функционал этого специалиста описать сложно, поскольку профессия молодая, но если говорить в общих чертах, он занимается сбором и анализом Больших данных и разрабатывает на их основе решения тех или иных бизнес-задач. Сейчас найти такого работника на рынке сложно, а стоить он будет дорого.

Но главная сложность для многих компаний даже не в том, где найти такого специалиста, — будущих Data Scientist готовят в МГУ, НИУ ВШЭ и МГТУ им. Н.Э. Баумана. К тому же есть стажерские программы аналитиков в коммерческих компаниях. Например, «Инфосистемы Джет» в этом году добавили целый раздел, посвященный обучению Data Scientist. Для начала топ-менеджменту компаний необходимо понять, зачем им такой специалист. Иначе в погоне за модным термином можно схантить редкого специалиста на высокую зарплату, который будет сидеть в кабинете и ничего не делать. Чтобы такого не происходило, есть простое решение: для начала вместе с Data Scientist стоит сделать один небольшой проект, который принесет компании ощутимую пользу.

Таким образом, вместо нынешних маркетологов компания получает «Маркетолога 2.0» — Data Scientist, который стоит дороже одного предыдущего маркетолога, но может заменить целый отдел. Возвращаясь к цитате Германа Грефа: в прошлом году Сбербанк сократил 450 юристов, которые готовили иски. Сейчас вместо них этими документами занимается нейронная сеть.

История машинного обучения: от модели Байеса до искусственного интеллекта

1763

Теорема Байеса

В работе ‘An Essay towards solving a Problem in the Doctrine of Chances’, опубликованной через 2 года после смерти ее автора Томаса Байеса, было указано, что можно определить вероятность какого-либо события при условии, что произошло другое, статистически взаимозависимое, с ним событие. Байес предлагал формулу, по которой можно пересчитать вероятность, взяв в расчет как ранее известную информацию, так и данные новых наблюдений. Это считается первым появлением методов машинного обучения.

1943

Искусственный нейрон

Уоррен Мак-Каллок и Вальтер Питтс нарисовали линейную модель нейрона. Согласно их модели, нейроны упрощенно рассматриваются как устройство, оперирующее двоичными числами. Теоретически сеть из электронных нейронов могла выполнять числовые и логические операции.

1952

Первая самообучающаяся программа

Артур Сэмюэль создал самообучающуюся программу Checkers-playing, умевшую, как следует из ее названия, играть в шашки. В 1959 году он же ввел в научный обиход термин «машинное обучение» — процесс, в результате которого компьютеры способны показать поведение, которое в них не было явно запрограммировано.

1956

Появление термина «искусственный интеллект»

Летняя конференция в Дартмутском колледже стала местом втречи людей, интересующихся моделированием человеческого разума, утвердила появление новой области науки и дала ей название: Artificial Intelligence (искусственный интеллект). Первым это словосочетание произнес организатор конференции — преподаватель математики Джон Маккарти.

1957

Перцептрон — первый нейрокомпьютер

Ученый Фрэнк Розенблатт предложил первую компьютерную модель восприятия информации мозгом. Спустя 3 года в Корнеллском университете он построил систему Mark I Perceptron, которую можно назвать первым нейрокомпьютером. С помощью фотоэлементов Mark I мог распознавать буквы, отпечатанные на карточках. Тем самым Фрэнк Розенблатт на практике реализовал модель Мак-Каллока–Питтса.

1959

Универсальный решатель задач

Ученые Герберт Саймон, Аллен Ньюэлл и Клиффорд Шоу разработали компьютерную программу — универсальную машину для решения задач. Принято считать, что это одна из первых компьютерных программ, обладающих искусственным интеллектом. Она могла решать задачу, не зная заранее способа решения.

1966

Первый виртуальный собеседник

Джозеф Вейцбаум написал виртуального собеседника ELIZA, способного имитировать (скорее пародировать) диалог с психотерапевтом. Своим названием программа обязана главной героине пьесы Бернарда Шоу «Пигмалион».

1976–1982

Самообучающаяся система «Эвриско»

«Эвриско» — компьютерная программа, написанная Дугласом Ленатом. Она состояла из эвристик, т.е. логических правил «если… то», по которым идет рассуждение. Это была экспертная система со средствами самообучения, способная учиться и уточнять уже созданные эвристики. Предшественником «Эвриско» была программа «Автоматический математик».

1985

Первая нейросеть

Терри Сейновски создает искусственную нейронную сеть NetTalk. В ее задачи входило изучение произношения английских букв в слове в зависимости от контекста — соседних букв. Программа для машинного чтения текста стала первым широко известным приложением, которое работало с искусственными нейросетями.

1997

Машина победила в шахматном турнире

11 мая 1997 года суперкомпьютер Deep Blue, разработанный компанией IBM, выиграл матч из 6 партий у чемпиона мира по шахматам Гарри Каспарова.

2004

Упрощение обработки Больших данных

Благодаря увеличению мощностей компьютеров и накопленным Большим данным «зима искусственного интеллекта» закончилась. Знаковым событием стал 2004 год, когда компания Google раскрыла свою технологию MapReduce. Два года спустя появился ее открытый аналог Hadoop, который дал возможность распределить обработку огромных объемов данных между простыми процессорами. Следующим шагом стал программный каркас Apache Spark, необходимый для распределенной обработки неструктурированных и слабоструктурированных данных.

2016

Машина победила в го

27 января программа AlphaGo, разработанная компанией DeepMind (одной из дочерних компаний Google), выиграла 5 игр подряд у профессионального игрока в го. Чемпион Европы Фань Хуэй после тех игр сказал: «Если бы меня заранее не предупредили, я бы решил, что против меня играет немного странный, но очень сильный живой игрок». Число допустимых комбинаций в го больше, чем атомов во Вселенной, поэтому считалось, что компьютер не способен играть на равных с профессиональным игроком из-за невозможности перебора всех доступных вариантов развития событий.

2017

Russian Artificial Intelligence Forum

7 ноября 2017 года пройдет конференция RAIF (Russian Artificial Intelligence Forum), посвященная искусственному интеллекту и машинному обучению. RAIF соберет на одной площадке представителей крупнейших российских и международных компаний, а также специалистов в области машинного обучения. В рамках форума команды — участницы онлайн-чемпионата по искусственному интеллекту «RAIF-Challenge–2017» представят свои проекты бизнес-сообществу и получат денежное вознаграждение. Организатор чемпионата и конференции — компания «Инфосистема Джет».

Kolesnikov_mash_29.11.17.48D5DE760FFA469AA45DB06100363316

Евгений Колесников

Директор Центра машинного обучения компании "Инфосистемы Джет"

Комментарий

В последнее время вернулся интерес общества к машинному обучению, и для этого, на наш взгляд, есть три причины. Первая: развитие математики, поскольку эта область близка к фундаментальной науке. Например, можно пользоваться библиотекой Apache Spark, куда стекаются данные из университетов со всего мира. Можно быстро перевести нейронные сети в формулы и выложить эти данные в открытый доступ, чтобы другие люди подхватили их и развивали дальше. Вторая — железо стало мощнее: теперь мы можем собрать не одно «решающее дерево», а целый лес «решающих деревьев». И самое главное — количество данных, которое у наших клиентов катастрофически растет.

Ниже приведен еще один успешный кейс; в силу определенных причин, мы не можем называть компанию-заказчика. Перед нашей компанией стояла узкоспециализированная задача: в один крупный морской порт ежедневно въезжали пронумерованные вагоны. Считывать белые номера на черном фоне несложно, но, если менялись шрифт или цвет поверхности либо надпись была загрязнена, задача усложнялась. Компания применила два алгоритма: первый искал место, где написан номер, второй изучал выделенную область и выдавал результат. Такое решение вряд ли бы появилось 10–15 лет назад, но оно стало возможно сейчас, когда совпали все три пункта, перечисленные мной.

Машинное обучение в совокупности с Большими данными критически изменит не только бизнес — оно изменит мышление. Раньше в компаниях делали упор на автоматизацию процессов, упрощали работу конкретных сотрудников или отделов, а теперь процесс меняется. Мы говорим «верь машине», а это может лишить данный отдел работы. Технологии, которыми раньше пользовались специализированные компании типа Яндекса и Google, сейчас доступны любому складскому помещению. А это меняет мир — ведь теперь нужно верить не экспертам, а машинам и Data Scientist.

Машинное обучение: фантастика, ставшая привычной

Авторы

О чем речь?

Авторы

Теги

Другие статьи автора

Статьи по теме

Каковы успехи? Кейсы, кейсы, кейсы…

Медицина

Ритейл

Промышленность

Политика

Банковская сфера

Кто продает услуги machine learning

Что будет дальше?

Что делать компаниям?

История машинного обучения: от модели Байеса до искусственного интеллекта

Комментарий

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

Применение технологии "клиент-сервер" в банке АКБ "РПБ"

Система IdM: опыт эксплуатации

«С точки зрения инфраструктуры мы находимся в переходном периоде»

Рисковать по системе

Сплошная фальшь, или Стоит ли доверять доверенности

«Дата-сайентистов, у которых есть доступ к озеру, мы знаем в лицо»

А слона в кустах и не заметил...

Построение информационной системы банка - комплексный подход

Практические способы противодействия внутренним угрозам в банковском секторе

Оставить заявку

Спасибо!

Машинное обучение: фантастика, ставшая привычной

Авторы

О чем речь?

Авторы

Теги

Другие статьи автора

Статьи по теме

Поделиться

Каковы успехи? Кейсы, кейсы, кейсы…

Медицина

Ритейл

Промышленность

Политика

Банковская сфера

Кто продает услуги machine learning

Что будет дальше?

Что делать компаниям?

История машинного обучения: от модели Байеса до искусственного интеллекта

Комментарий

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

Оставить заявку

Спасибо!