ИТ-портал компании «Инфосистемы Джет»

Открытые данные. О пользе бесплатного сыра

Открытые данные. О пользе бесплатного сыра

Каждый житель «умного города» почти ежедневно пользуется одной или несколькими информационными услугами – картами со сведениями о загруженности дорог, электронными очередями в банках и магазинах, сервисами для записи на прием к врачу или в ГИБДД для получения водительского удостоверения. Не так давно на остановках стали появляться информационные табло со сведениями о точном времени прибытия общественного транспорта, что значительно упрощает планирование маршрута, например, на работу. Все эти нововведения, делающие нашу жизнь удобной и комфортной, возможны благодаря использованию открытых данных.

Не всякие данные одинаково открыты…

В 2009 году создатель Всемирной паутины Тим Бернерс-Ли предложил пятизвездочную модель для характеристики открытых данных.

* – Данные доступны в сети по открытой лицензии в человекочитаемом формате (например, в виде скана документа). Использовать их неудобно, но, по крайней мере, они уже опубликованы и общедоступны.

** – Данные доступны в сети и представлены в структурированном машиночитаемом формате (например, таблица Excel). Минус Excel в том, что это закрытый (проприетарный) формат, который может содержать недоступную пользователям информацию, также он плохо пригоден для обработки некоторыми программными средствами. Тем не менее данные структурированы и могут быть обработаны компьютером.

*** – Данные доступны в открытом (непроприетарном) формате (например, CSV). В отличие от Excel, этот формат не позволяет скрыть от пользователей информацию и совместим с самыми разными программными инструментами.

**** – Опубликованные данные имеют идентификаторы (URI, Universal Resource Identifier), благодаря которым на них можно ссылаться напрямую.

***** – Данные представлены не изолированно, они связаны с другими данными, к которым пользователь может обращаться по мере надобности и тем самым формировать свое представление о данных с учетом их контекста.

Юридическая сторона вопроса. Определение, данное Бернерсом-Ли, не является строгим и допускает использование в качестве открытых данных даже те данные, машинная обработка которых принципиально невозможна. В законодательной практике используются более узкие определения. Например, в России открытые данные должны быть представлены «в виде массивов данных, организованных в формате, обеспечивающем их автоматическую обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и на условиях ее свободного (бесплатного) использования» (№ 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления»). Таким образом, с точки зрения законодательства РФ не все доступные и бесплатные данные являются открытыми.

Второй важный момент в представленном выше определении – свободное использование данных. Без приложенного документа (лицензии), указывающего на возможность свободного (бесплатного) использования данных, набор данных не считается открытым, даже если он выложен в свободном доступе в сети в машиночитаемом виде. В основе лицензий, используемых нашим государством, зачастую лежат договоры, разработанные некоммерческими организациями Creative Commons, Open Data Commons и Open Data Institute, чьи лицензии являются наиболее применяемыми в мире. Обязательное условие использования каждого типа лицензии – свободное распространение и указание авторства.

Формат имеет значение. Кроме того, формат, в котором лицензируемые открытые данные будут распространяться, должен быть непроприетарным, т.е. открытым. Самые популярные форматы – CSV, XML, JSON, RDF, API. При этом прослеживается тенденция перехода к публикации небольших наборов данных в JSON. Этот формат удобен для чтения и написания как человеком, так и компьютером. За счёт своей лаконичности (например, по сравнению с XML) он лучше подходит для сериализации сложных структур. Для доступа к большим наборам традиционно используется API.

Бесплатно не значит бесполезно

В 2013 году в Великобритании на очередной встрече лидеров стран G8 был сформирован и подписан документ «Хартия открытых данных». Согласно ему, Россия не относится к государствам-пионерам в области использования открытых данных, однако инициативы и инновации, постепенно приходящие в нашу страну, уже сделали ее одной из стран-последовательниц. В России уже есть большое количество порталов, активно использующих открытые данные.

Отметим, что открытые данные по факту появились в мире и в России задолго до того, как в обиход вошел сам термин. Например, на протяжении последних 20 лет наша страна использовала доступный и бесплатный справочник КЛАДР, обеспечивающий единообразный ввод адресов на всей территории РФ.

Табл. 1. Примеры использования открытых данных в России и за рубежом

Категория данных

Примеры массивов данных

Примеры систем за рубежом

Примеры российских систем

Частные компании

Компании/реестр предприятий

DUNS (Digital Universal Numbering System)

Единый реестр предприятий России

Подотчетность правительственного аппарата

Контактная информация для связи с правительством, результаты выборов, нормативно-законодательные акты и уставы, ставки заработной платы, знаки признательности/подарки

Open.gov.com

Портал «Открытое правительство»

Финансовые и контрактные вопросы

Заключенные сделки, подписанные контракты, поданные заявки на участие в тендере, будущие
тендеры, местный и  национальный бюджеты (планируемый и расходуемый)

System for Acquisition Management

Портал «Открытые госзакупки»

Геопространственные данные

Топография, почтовые индексы, национальные карты, местные карты

Google Maps

Яндекс.Карты, ФИАС

В последнее время крупные аналитические агентства всё чаще приводят информацию о том, что использование открытых данных может приносить значительные финансовые выгоды. Например, согласно исследованию McKinsey, открытые данные только в отрасли здравоохранения могут помочь генерировать от 300 до 450 млрд долларов США ежегодно за счет их использования при оценке образа жизни, для профилактики здоровья, разработки инноваций в области медицины и т.д.

Показателен пример из транспортной сферы. Пользователь приложения с информацией о дорожной ситуации в городе принимает решение о поездке, ориентируясь на количество пробок и актуальное положение общественного транспорта. При высокой загруженности дорог он либо проложит для себя маршрут объезда на авто, либо воспользуется метро/автобусом и др. Это снизит количество машин на дорогах и повысит скорость движения, а последнее скажется на наполняемости общественного транспорта, что позволит городу зарабатывать на каждом новом пассажире.

Подобные приложения, потребляющие и обрабатывающие информацию о текущем положении транспортных средств, паспортах маршрутов и остановок, а также данные с турникетов, положительно влияют на дорожную ситуацию в городе. Правда, это возможно только при использовании современных ситуационных центров и служб мониторинга дорожной ситуации (например, действующего в Москве ЦОДД – Центра организации дорожного движения).

Рис. 1. Использование открытых данных в сфере транспорта

Другое возможное использование открытых данных – планирование городской инфраструктуры на основании статистических данных о численности населения и перемещении людских потоков в течение дня. Это позволяет определять необходимое количество не только больниц, поликлиник, отделений полиции, детских садов, школ и т.д., но и аптек, отделений банков, магазинов – словом, социально значимых коммерческих структур. В случае публикации плана развития города в формате открытых данных государство получает возможность вступать в диалог с бизнесом и совместно моделировать максимально удобную для граждан инфраструктуру, что может значительно сократить издержки на ее обслуживание.

Было бы желание

Для того чтобы открытые данные могли работать, необходимо решить 4 основные задачи.

Первая и самая важная – осознание государственными структурами необходимости использования открытых данных. Каждое государство остро нуждается и в сокращении расходов, и в развитии бизнеса, и в повышении уровня удовлетворенности своих граждан. Проблема кроется в том, что министерства и ведомства не всегда видят необходимость в повышении уровня автоматизации своей деятельности и степени прозрачности сведений о ее результатах. Безусловно, это долгосрочный процесс, требующий изменений в подходе к обработке информации о деятельности государственных структур и принятия комплекса определенных мер. Публикуемая информация должна быть приведена к виду, выбранному правительством, соответственно, данные должны быть обработаны специфичным образом. Важен также концептуальный подход министерств и ведомств: желательно, чтобы предоставляемая информация не была малосодержательной отпиской, которую государственные структуры дают «для галочки».

Второй задачей является проведение качественной первичной обработки открытых данных. Без соответствия стандартным форматам и наличия лицензии данные не могут быть полезны населению. Их неаккуратная обработка и отсутствие проверок качества могут привести к сбоям в их загрузке в системы-потребители. Так, в ходе одного нашего проекта, связанного с разработкой и поддержкой работы системы для силового ведомства, требовался перенос адресных справочников для точного определения координат того или иного места. Система работала в закрытой сети, так что перенос стал нетривиальной задачей. Мы неоднократно повторяли загрузку данных в систему из-за сбоев, вызванных незначительным количеством ошибок в первичных данных, а именно в справочниках КЛАДР и ФИАС.

Отметим, что заказчик зачастую ассоциирует подобные неприятности с компанией-разработчиком – исполнителем проекта, а не с поставщиком открытых данных, допустившим ошибку при их формировании. По нашему мнению, наиболее логичный выход из ситуации – дать возможность пользователям открытых данных (в данном случае специалистам заказчика) вносить правки в исходный набор. Правда, делать это нужно с осторожностью, чтобы минимизировать риски дублирования объектов вследствие банальной невнимательности пользователей. В идеале должна быть предусмотрена обратная связь от пользователей открытых данных к их «производителям» – поставщикам. Это позволяет более оперативно исправлять неточности в наборах. Во многих зарубежных странах эти механизмы уже внедрены, для России это пока задача на перспективу.

Третья задача заключается в обеспечении производственных мощностей для публикации открытых данных. Без надежных телеком-решений открытые данные могут просто не дойти до пользователей. Одни из наиболее активных потребителей подобной информации – государственные и коммерческие ситуационные центры. Поэтому при их проектировании не стоит забывать о телекоммуникационной инфраструктуре для правильного и бесперебойного распределения данных для анализа и прогнозирования экстренных ситуаций. Кроме того, необходимо предусмотреть резервное хранилище для получаемых открытых данных на случай перебоев в предоставлении сторонних информационных услуг.

Так, при создании ситуационного центра для крупной российской компании мы использовали механизмы автоматического получения открытых данных ФИАС и Росгидромета для систем мониторинга оперативной обстановки, а также данные Росстата для прогнозирования возможного экономического и социального ущерба от ЧС. Мы обеспечили отображение оперативных событий, объектов критической инфраструктуры и области влияния погодных явлений на одной интерактивной карте переменного масштаба, что позволило свести к минимуму случаи несвоевременного реагирования на ЧС вследствие ошибок операторов ситуационного центра. В то же время было обеспечено надежное резервирование получаемых данных на случай сбоев на стороне поставщиков информации.

Четвертой задачей является выбор инструментов, позволяющих «прочитать» открытые данные, и поиск компетентных специалистов, способных извлечь из них максимум пользы. Один-единственный набор данных вряд ли принесет большую пользу, но если группы данных подобраны правильно и дополняют друг друга, эффект от их использования будет более ощутим. В упомянутом выше ситуационном центре сведения о погоде и геоданных обрабатывались с помощью систем класса BI, также обрабатывались статистические данные о населении и кадастровые сведения. Такой подход к использованию открытых данных позволяет прогнозировать различные виды рисков (финансовые, производственные, социальные и др.) и упрощает реагирование на чрезвычайную ситуацию. Например, становится понятно, какие районы необходимо эвакуировать в первую очередь, кого нужно оповестить раньше остальных и т.д.


В заключение отметим, что для оптимизации процесса работы с открытыми данными необходимы аккуратное и вдумчивое проектирование и разработка специализированных продуктов. Если разработчик ПО знает, как правильно должна быть внедрена система, потребляющая и обрабатывающая открытые данные, процесс ее создания и внедрения пройдет максимально безболезненно, а использование системы принесет заказчику максимум пользы.

Вернуться к содержанию выпуска
Оставьте комментарий
Мы не публикуем комментарии: не содержащие полезной информации или слишком краткие; написанные ПРОПИСНЫМИ буквами; содержащие ненормативную лексику или оскорбления.
О журнале

Журнал Jet Info регулярно издается с 1995 года.

Узнать больше »
Подписаться на Jet Info

Хотите узнавать о новых номерах.

Заполните форму »
Контакты

Тел: +7 (495) 411-76-01
Email: journal@jet.su