В процессе разработки и эксплуатации информационных систем, предметная область которых имеет отношение к геологии, очень часто возникает необходимость интеграции цифровых геологических данных из различных источников. Это может быть вызвано, например:
Сценарии интеграции могут быть различными, но можно выделить такие типичные задачи интеграции, как:
В качестве примера можно привести Электронную карту недропользования России, созданную центром "Минерал" в 2006 году как инструмент комплексного анализа данных из основных отраслевых информационных массивов, таких как:
В процессе этой работы решались все перечисленные задачи. Сейчас Электронная карта недропользования России получила развитие как самостоятельная информационная система, регулярно пополняемая актуализированными данными из всех названных источников, которые тоже не стоят на месте и развиваются, и делает решение задач интеграции регулярным. Материалы по Электронной карте недропользования России включены в состав экспозиции Роснедра на 33-м Международном геологическом конгрессе в Осло.
Если согласование метамоделей в настоящее время, как правило, не вызывает принципиальных трудностей (используются либо реляционные, либо объектно-ориентированные подходы, которые достаточно хорошо совместимы), то решению остальных задач зачастую препятствуют такие проблемы, как:
Эти сложности связаны с тем, что практически используемые геологические стандарты, как правило, имеют отраслевой и национальный, а не международный характер (специализированные ГОСТы (РФ), NADM (USA), Engineering Geology Field Manual (USA) etc), кроме того, имеется значительное количество информационных систем, созданных без оглядки на существующие стандарты. В качестве примера можно привести практически все актуальные отраслевые цифровые информационные массивы в России, перечисленные выше.
Характерный пример – различие трактовок понятия «месторождение» в Государственном Кадастре Месторождений Российской Федерации и Государственный баланс запасов полезных ископаемых Российской Федерации. То, что кадастр именует «месторождением» с присвоением соответствующего идентифицирующего номера, зачастую является «группой месторождений» с точки зрения баланса запасов. Обе системы созданы и ведутся весьма компетентными специалистами, и обе точки зрения заслуживают уважения, однако при интеграции необходим какой-то компромисс.
Предполагает жесткое кодирование процедур интеграции, основанное на конкретных моделях данных (онтологиях), см. рис.1.
Рис.1. Схема процедурного метода интеграции данных
Преимущество: нет ограничений по применению.
Недостатки:
Когда целесообразно использовать: если задачи интерпретации являются эпизодическими, непредсказуемыми и повторное использование не планируется.
Это путь был выбран нами для быстрой первоначальной интеграции данных из вышеперечисленных источников в первой версии Электронной Карты Недропользования России. Причины очень просты: результат требовалось получить максимально быстро, и дальнейшая судьба проекта была тогда не вполне ясна.
Соотносит модели данных (онтологии) между собой на уровне описания, обрабатываемого стандартным модулем объединения, не зависящем от моделей данных, см. рис.2.
Рис.2. Схема декларативного метода интеграции данных
Преимущества:
Недостаток: ограниченная область применимости - требуется использование соответствующей универсальной метамодели во всех источниках данных.
Когда целесообразно использовать: если есть возможность предусмотреть необходимость интеграции данных на этапе проектирования источников данных (довольно редкая на практике ситуация, но надо к ней стремиться!).
Использует процедурный метод для интерпретации данных каждого из источников с целью перевода данных в универсальную метамодель более высокого уровня, в которой модели данных (онтологии) описываются единообразно. Это позволяет в дальнейшем для интеграции использовать декларативный подход, см. рис.3.
Рис.3. Схема процедурно-декларативного метода интеграции данных
Преимущества:
Недостаток: накладные расходы в расчете на каждый источник данных при разовом использовании могут превысить затраты на процедурную интеграцию.
Когда целесообразно использовать: в случае, когда задачи интеграции достаточно предсказуемы и повторяемы, при этом один из источников данных относительно хорошо известен, стабилен или изначально спроектирован с использованием универсальной метамодели, а другие источники могут меняться. Типичный сценарий – систематическое пополнение разрозненными данными конкретной информационной системы.
Именно этот вариант сейчас используется нами для регулярного пополнения Электронной Карты Недропользования России актуализированными данными из вышеперечисленных источников.
Кирилл Флоренский, рук. отдела ИТ центра «Минерал»