ICSTI - Projects | National Information Resources

|

Our Products

	Интеграция метаданных Единого Научного Информационного Пространства РАН
А.А.Бездушный, А.Н.Бездушный, В.А.Серебряков, В.И.Филиппов РОССИЙСКАЯ АКАДЕМИЯ НАУК МЕЖВЕДОМСТВЕННЫЙ СУПЕРКОМПЬЮТЕРНЫЙ ЦЕНТР РАН ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР РАН им. А.А.Дородницына УДК 004; 004.78.:025.4.036; 00475 Ответственный редактор доктор физ.-матем.наук В.А.Серебряков Проводится анализ современного состояния информационного общения через Интернет, рассмотрены передовые технологии и форматы представления метаданных, подробно представлены и обоснованы стандарты на метаданные Единого Научного Информационного Пространства (ЕНИП) РАН. ©Вычислительный центр им А.А.Дородницына Российской академии наук, 2006 В данной статье приводится ВВЕДЕНИЕ в это Научное издание. В последние годы в мире, и в России в частности, происходят глубокие изменения, связанные с влиянием информационных технологий на практически все стороны жизни. Связано это с одной стороны с невероятно бурным развитием вычислительной техники, сетей связи и самих информационных технологий, а с другой – с тем, что общество уже в такой степени зависит от успехов применения информационных технологий, что вкладывает все больше усилий (в том числе средств) в их развитие. Все это касается промышленности, бизнеса, общественной жизни и, конечно, науки. В науке, как и в других областях, требующих передовых знаний, идет постоянная гонка со временем: для достижения новых научных результатов постоянно нужны самые последние данные о результатах, достигнутых в мире. С другой стороны для пропаганды своих собственных достижений ученым также нужны средства быстрых публикаций (конечно, при условии соблюдения авторских прав). Значительную часть своего времени научные сотрудники проводят за компьютерами в поиске, анализе информации, в электронной переписке с коллегами во всем мире. Самой обычной картиной в любом научно-исследовательском институте (как впрочем и в любом офисе) является научный сотрудник перед экраном компьютера. Раньше это было характерно для профессиональных программистов, ныне – практически для всех категорий исследователей. Огромную роль в ускорении оборота научного знания сыграл Интернет. Начавшись с (как уже теперь кажется простого) доступа к текстам по ссылкам, Интернет превратился во всеобъемлющую интегрированную среду, где уже основную долю играет информация, извлекаемая из разного рода информационных источников (баз данных). В связи с этим возникает целый ряд серьезных проблем, связанных с интегрированностью этой информации (под интегрированностью мы здесь имеем в виду обеспечение связанности информации, предоставляемой пользователю). В этом отношении характерно использование различного рода поисковых средств: они индексируют невероятно большое количество информации и на запрос пользователя также выдают тысячи страниц информации. Но обеспечить выдачу связанной информации они не в состоянии, поскольку основываются на анализе несвязанных текстов. С этой точки зрения сужение всего пространства рассатриваемой информации, а еще лучше, и сужение круга пользователей, предоставляет возможность более точной спцификации информации и, следовательно, более качественного обслуживания. Именно на основе этих общих рассуждений сформировалось предложение о создании Единого Научного Информационного Пространства РАН, т.е. информационного пространства с одной стороны, ориентированного прежде всего на научного сотрудника РАН как потребителя, а с другой – ограниченного информацией, порождаемой и циркулирующей прежде всего в РАН. Это ограничение позволяет более точно специфицировать информацию, обеспечить ее интегрированность. Для этого в РАН уже имеются существенные предпосылки: Накопившийся огромный объем научной информации в электронном виде в различных отраслях науки. Осознанная потребность научных сотрудников в необходимости как поиска качественной информации, так и в выставлении собственной информации в сетью Осознанная потребность научных сотрудников в необходимости приведения имеющихся у них накопившихся массивов унаследованной информации к каким-либо сандартам (желательно международным). Осознание административным уровнем управления наукой в РАН критической необходимости наведения информационного порядка в РАН как организации для сохранения возможности управления. Все это привело к тому, что на протяжении ряда последних лет в РАН ведутся работы по формированию, т.е. разработке концепции и ее реализации, Единого Научного Информационного Пространства РАН (ЕНИП РАН), призванного обеспечить перечисленные выше требования к информационному обеспечению науки. Информационные системы научных учреждений отличают огромные объемы и низкая структурированность данных, распределенный характер, неоднородность, независимость и разные условия сопровождения, управления и политики доступа к информационным источникам и сервисам. При этом возникают вопросы информационной совместимости, которые принято делить на уровни, а именно, техническая интероперабельность, синтаксическая интероперабельность, семантическая интероперабельность. Для преодоления поисковой «анархии» выделяется понятие метаданных (данные о данных), описывающих содержимое ресурса в виде набора именованных значений, в том числе связей с другими ресурсами. Метаданные могут относиться к различным предметным областям, в рамках одной иметь разные выражение и интерпретацию. Создание и согласование стандартных прикладных профилей метаданных и онтологий упростит интеграцию разнообразных систем, позволит автоматизировать обмен метаданными, их обработку и преобразование, повысить точность и эффективность поиска. Глубина структуризации метаданных о ресурсах должна определяется задачами конкретной системы. В узкопрофессиональных системах она является высокой с тем, чтобы поддержать соответствующие процессы, возможность проведения специальных исследований. Тем не менее, для общих задач интеграции информационных ресурсов высокая степень структуризации не требуется и усложняет процесс. Необходимо выработать подход к наращиванию степени структуризации метаданных, который позволил бы специализировать общие схемы метаданных под потребности конечных приложений, разработать набор элементов метаданных для общей научной информации и некоторые профили метаданных конкретных научных областей, согласуя их с научным сообществом и международными стандартами; обеспечить выделение и согласование стандартных классификаторов ресурсов и тезаурусов. Основу ЕНИП РАН должны составить прежде всего стандарты на метаданные информации, циркулирующей в ЕНИП. Эти стандарты должны отвечать следующим требованиям: Включать в себя основные типы информации, требующейся для поддержки работы научного сотрудника. Быть открытыми, т.е. обеспечивать доступ к соответствующей информации по этим описаниям. Быть расширяемыми, т.е. обеспечивать возможность детализации описаний. Обеспечивать возможности интеграции информации. Обеспечивать возможности уникальной идентификации информации. Обеспечивать возможности размещения и поиска информации в распределенной среде. Быть оринтированными на современные и перспективные технологии описания и использования информации (в нашем понимании – ориентироваться на семантический Веб (Semantic Web)). Обспечивать возможности интероперабельности с внешней средой. Естественно, информационное наполнение Единого Научного Информационного Пространства на начальном этапе поддержки ЕНИП не может представлять всего разнообразия тематической специализации различных научных учреждений. Необходимо представить в первую очередь информацию, характеризующую основные аспекты научной деятельности. Научные учреждения заинтересованы прежде всего в предоставлении доступа к данным о научных достижениях, научной деятельности сотрудников, административной информации об организации. Эта информация представляет интерес и для конечных пользователей системы, осуществляющих поиск и навигацию по информационному пространству, позволяет сотрудникам получить информацию о смежных со своими работах в других коллективах. Схемы метаданных играют в ЕНИП двоякую роль. С одной стороны, они служат «обменными схемами», с разными уровнями детализации, для обмена данными между системами, входящими в Единое Научное Информационное Пространство. С другой стороны, в рамках ЕНИП стоит задача не только предложить обменные схемы, но и разработать конкретные типовые информационные системы для научных институтов, библиотек, издательских отделов и пр., которые дали бы стимул к информационному наполнению ЕНИП. Различные информационные системы могут ориентироваться на различные предметные области. Например, одни имеют дело с научными публикациями, другие с проектами, третьи и с тем, и с другим. Соответственно, каждую конкретную предметную область предлагается описывать отдельной схемой, а точнее – набором схем, возможно, ссылающихся друг на друга. Это разбиение схемы по «минимальным предметным областям» мы называем разбиением на «модули». Модули рассматриваются не только как способ деления схемы, но и как способ деления функциональности реализуемых в рамках ЕНИП типовых информационных систем, порталов по отдельным компонентам. Наряду с выделением профилей метаданных как таковых, делается попытка определиться со стратегиями, методиками развития схем – наращивания уровней, глубины описания той или иной предметной области, подходящих для разных систем. Необходимо не просто предложить схему для той или иной сущности или научной области, но и для каждой из них предложить несколько «уровней поддержки» схем, например: Минимальная – необходимый разумный минимум, минимально достаточный для обмена метаданными, поддержки взаимосвязей ресурсов; базовая – объем достаточный для эффективной работы «дилетантов» в конкретной предметной области; расширенная – объем достаточный для основной работы «специалистов» предметной подобласти; специализированная – объем, существенно ориентированный на специалистов предметной области, используется только в рамках подпространства, включающего специализированные системы. В результате многолетних усилий нами был разработан и реализован подход, удовлетворяющий этим требованиям. Основу этого подхота составляет инструментальное ядро, как бы окруженное слоем описания метаданных. Этот слой обеспечивает обмен данными, интеграцию данных и поддержку распределенности. В первой версии реализация этого подхода называлась ИСИР (Интегрированная Система Информационных Ресурсов). В основе инструментального ядра тогда лежала реляционная модель данных. В следующей версии системы в основе формальной модели данных ядра лежала модель данных RDFS (Resource Definition Framework Schema). Язык RDF Schema позволяет описывать словари классов и свойств. Поскольку классы, свойства и экземпляры метаданных идентифицируются не просто именем, а уникальным идентификатором, то это позволяет разделить их по «профилям», соответствующим разным «пространствам имен». RDFS служит базой для более сложного языка описания «онтологий» предметных областей, Web Ontology Language (OWL), который позволяет определить более сложные ограничения на применение классов и свойств, структуру метаданных. OWL позволяет указывать метаданные о схемах, и, в частности, их функциональную зависимость – «импорт» схем. При импорте все утверждения импортируемой схемы становятся частью импортирующей онтологии (которую мы будем называть подсхемой). Интересная особенность заключается в том, что подсхема может не только определять собственные классы и их свойства, но и указывать любую дополнительную информацию об импортированных классах и свойствах, в частности,добавлять новые свойства к импортированным классам, уточнять тип значений и ограничения на импортированные свойства и пр. Такая особенность, непривычная для традиционной объектной парадигмы, оказывается очень полезной для эффективного наращивания детализации схем метаданных, перехода от обменных схем к схемам конкретных информационных систем. В предлагаемой работе делается попытка систематического описания подхода как к методологии определения схем метаданных, так и конкретных схем. Эта публикация ориентирована прежде всего на специалистов, рассматривающих возможность включения своих данных и информационных систем в ЕНИП РАН, но авторы надеются, что она окажется также полезной всем, кто занимается вопросами обеспечения инетроперабельности распределенных систем. Авторы выражают благодарность нашим коллегам, участвовавшим в обсуждении и формировании предложений по схемам метаданных ЕНИП, в частности, Каленову Н.Е. (БЕН РАН), при существенной поддержке которого был сформирован профиль библиографической информации ЕНИП, Алексееву А.Н. (ИМСС УрО РАН), участвовавшему в обсуждении схемы описания конференций и предложившему схему поддержки проведения конференций, Аджиеву А.С. (ЦНТК РАН), предложившему схемы математической информации и тезаурусов, а также другим нашим коллегам, участвовавшим в обсуждении предложений ЕНИП. Особая благодарность Анне Данилиной, подготовившей все диаграммы схем и классов в этой публикации. Цели, проблемы и задачи Российская Академия Наук имеет разветвленную структуру, которая объединяет большое число научно-исследовательских учреждений и коллективов, расположенных на всей территории России и вовлеченных во все многообразие видов научной деятельности. Эти учреждения обладают уникальными научными информационными ресурсами. Среди них опубликованные результаты научных исследований и экспериментов, библиографические и фактографические базы данных, сведения об ученых, их научной деятельности, публикациях, проектах и т.п. Эти ресурсы представляют значительный интерес для сотрудников научных и административных учреждений, членов мирового научного сообщества, для представителей промышленности и предпринимателей, которые заинтересованы во внедрении результатов научных исследований. Одним из наиболее бурно развивающихся направлений информационной индустрии последних лет стала разработка распределенных информационных систем. Причинами такого бурного роста стали достижения одновременно в нескольких областях, среди них отметим следующие: значительный рост пропускной способности каналов связи; скорость обмена по ним приближается к скоростям внутренних шин компьютеров; рост производительности компьютеров как по скорости, так и по объемам памяти, и оперативной, и внешней; широкое проникновение компьютеров и компьютерных технологий в повседневную деятельность как большинства организаций и учреждений, так и граждан; развитие сети Интернет, обеспечивающей простой и надежный доступ к невероятному числу информационных ресурсов; развитие самих информационных технологий. С этой точки зрения можно сказать, что программирование находится на четвертой фазе своего развития: 1) “классическое” программирование (сначала в кодах, затем на ассемблере, затем на языках высокого уровня) для больших ЭВМ; 2) “классическое” программирование для персональных ЭВМ; 3) программирование с использование визуальных и CASE средств; 4) “сетевое” программирование. Эти общие процессы естественно в значительной степени коснулись и науки. В этом смысле хотелось бы отметить три основных направления информатизации науки: основным способом доступа к научной информации становится доступ через сеть; на практике это означает, что необходимо обеспечить средства предоставления результатов исследований в сеть, средства эффективного поиска необходимой информации и доступа к ней; все это означает необходимость создания и развития разнообразных электронных библиотек и перевода традиционных библиотек на обслуживание в удаленном режиме; в значительной степени деятельность ученых и коллективов ученых перемещается в создание баз данных, содержащих результаты исследований; часто при этом создаются не просто базы данных, но и средства доступа к специфическим данным (химическим, астрономическим, физическим и т.д.) и средства визуализации этих данных; принципиально важной становится интеграция разнообразных данных и систем, поддерживающих и обеспечивающих научный процесс; здесь в свою очередь необходимо отметить две проблемы: первое – научному сотруднику необходимо, чтобы по возможности вся требуемая ему информация была достаточно легко доступна, т.е. чтобы все компоненты, образующие информационную системы поддержки научных исследований, были интегрированы как по форме (имеются в виду средства, предоставляемые пользователю), так и по содержанию (информационная система должна поддерживать связи по данным между различными компонентами); второе – для создания единого информационного пространства науки на основе интеграции данных необходимо иметь стройную и развитую систему метаданных, т.е. данных, описывающих данные. Именно эти метаданные обеспечивают возможность поддержания связей между данными различных компонент. В мире имеется достаточно большое количество информационных систем для работы с научными данными, наукоемкой информацией. Практически каждое научное учреждение представляет в электронной форме данные о публикациях сотрудников, о проводившихся или ведущихся научных исследованиях и проектах, о результатах исследований. Многие из учреждений имеют собственные информационные системы для наукоемкой информации, которые в каком-то виде ее хранят и предоставляют. Однако при создании их описаний недостаточное внимание уделяется вопросам интероперабельности – слабо применяются соглашения по стандартизации электронного представления информационных ресурсов и соответствующие средства, призванные поддержать интеграцию информационных ресурсов, повышение полноты и точности поиска и т.п. Интересы пользователей не могут быть полностью обеспечены какой-то одной информационной системой, пусть даже весьма представительной. Как правило, интересы ученых выходят за рамки текущей исследовательской задачи и часто находятся на стыке научных областей. Практически невозможно в рамках одной организации собрать информацию, которая удовлетворила бы запросы всех ее сотрудников. Даже, если бы в какой-то момент это удалось, то в силу огромного динамизма научных исследований невозможно было бы обеспечить приемлемую полноту и актуальность данных, представляемых такими замкнутыми системами. Попытки объединить данные научных учреждений в одной централизованной системе на достаточно высоком уровне не приводили к положительному результату. Это можно увидеть на примере системы ERGO [ 1 ] и финского проекта создания национальной университетской системы [ 2 ]. Препятствиями на этом пути являются как объемы информации, так и сложность обеспечения полноты, актуальности данных, невозможность сведения данных всего разнообразия научных областей к единой структуре. К тому же возникают специфические организационные проблемы таких объединений. Результатом этого является невозможность для пользователя получить полную и достоверную информацию о ресурсах, представляющих для него интерес. Очевидно, что каждая область науки, оперируя со своими специфичными данными, имеет потребности в собственных форматах их представления, обусловленных требованиями функциональности соответствующих систем обработки информации. Этим объясняется малая степень интеграции таких систем (например, по сравнению с системами обработки коммерческих данных). Тем не менее, необходимость обеспечения активных научных коммуникаций и эффективного использования научной информации делает актуальной задачу интеграции разнородных научных данных. В качестве первого шага необходимо обеспечить такую интеграцию на некотором «верхнем уровне», общем для всех отраслей фундаментальной науки. Использование всего богатства имеющихся в World Wide Web (Web) источников информации также сопряжено с проблемами эффективного обнаружения требуемой информации. Имеющиеся поисковые системы общего назначения не позволяют осуществить эффективный поиск требуемой информации. Они уже не в состоянии проиндексировать все Web-пространство. Это связано и с возрастанием объема информации, и со способами выбора того, что следует индексировать, как обеспечить единое пространство, с проблемами определения того, в контексте каких поисковых запросов следует выдавать ту или иную информацию. Имеется много всевозможных способов поиска информации, ее извлечения и доставки, тем не менее, отыскать нужную информацию в Web становится все труднее и труднее. Более того, в работе ученых интересует исключительно наукоемкая информация, обладающая своей спецификой, в частности, обусловленной специализацией, сложностью и сильной связанностью информации. Имеющиеся Web-системы общего пользования наряду с такой информацией предоставляют массу других данных, не относящихся к запросу. Изначально Web-технологии исключительно ориентировались на поддержку человеческой деятельности по поиску и навигации в информационном пространстве Web-ресурсов. Благодаря принципам, легшим в основу Web, он развивается фантастическими темпами, развивается как экстенсивно, так и интенсивно. Побочным эффектом этого расширения становится то, что все более и более трудно найти необходимую информацию в Web. Эта информация слабо упорядочена, постоянно изменяется, причем как сама информация, так и ее положение. Таким образом, в настоящий момент значительная часть информационных ресурсов недоступна широкому кругу научной общественности, а ресурсы, представленные в Интернет, существенно разрознены, недостаточно систематизированы и структурированы. В сложившейся ситуации, когда сведения представлены как правило в виде слабоструктурированного текста, когда поисковые системы осуществляют полнотекстовый поиск нужных данных по запросам в свободной форме, пользователь получает огромное количество «шумовой» информации, среди которой очень трудно выбрать действительно полезные знания. В силу сложности Web и его высокой динамичности, приводящих к вышеуказанным проблемам, необходимо создавать и использовать средства, ограничивающие информационную анархию, облегчающие поиск необходимых ресурсов, делающие поиск значительно более управляемым, предметным и содержательным. Задача интеграции научных данных и приложений заключается в том, чтобы совместно использовать данные и процессы без необходимости серьезных изменений в приложениях или структурах данных. До последнего времени в научных учреждениях в основном использовались программные системы, предназначенные для одной цели для одного множества пользователей без достаточного продумывания интеграции этих систем в большие системы. Эти системы обычно специально разрабатывались с учетом специфических нужд и использованием текущей технологии. Во многих случаях используются нестандартные хранилища данных и технологии разработки приложений. К сожалению многие из этих систем трудно адаптируются для коммуникаций и использования общей информации с другими, более развитыми системами. В результате возникает проблема интеграции систем и приложений. Часто используются одновременно много различных технологий. Интеграция этих технологий – почти всегда трудная задача. Традиционные технологии, ориентированные на передачу сообщений, связывают приложения друг с другом, но эти решения «точка-точка» порождают прямые связи между многими приложениями. В результате поддержка самого решения по интеграции может стать более дорогим, чем поддержка связываемых приложений. При использовании подхода точка-точка интегрируемые информационные системы (ИС) должны быть изменены так, чтобы каждая ИС была способна посылать и принимать сообщения. Хотя это легко сделать в случае двух ИС, интеграция дополнительных ИС требует дополнительных каналов. Если информационная система A успешно интегрирована с информационной системой B, и надо включить информационные системы C и D, нужно создать еще три интегрирующих канала. Постепенно процесс становится столь сложным, что его реализация становится почти неуправляемой. Наивысшая цель интеграции – общая виртуальная система. Это обеспечивает реальную доступность информации, требуемой для всех запросов вне зависимости от того, где информация расположена. Любая база данных, приложение и другие информационные элементы должны быть доступны в любое время и везде. В этой связи инициатива по организации Единого Научного Информационного Пространства (ЕНИП) призвана помочь научным коллективам сделать ряд шагов в направлении интеграции разнородных научных информационных и программных ресурсов отдельных научных учреждений, предоставлении пользователям более эффективных средств интеграции и поиска информации, научной коммуникации, сотрудничества и совместной работы. Под единым пространством понимается не формирование централизованной системы, не навязывание всем одних и тех же решений, а стремление последовательностью практических шагов, совместными усилиями научных коллективов: сформулировать взаимосогласованный набор соглашений, правил и открытых стандартов; приготовить совокупность макетов и типовых решений для реализации адаптеров прикладных систем, инфраструктурных служб, поддерживающих разные уровни интероперабельности распределенных гетерогенных данных и приложений; создать ряд информационных систем общего назначения, следующих этим соглашениям, использующих эти реализации, допускающих модульную организацию, наращивание функциональных возможностей; применить эти результаты для решения соответствующих задач научных учреждений. Все нацелено на то, чтобы помочь научным учреждениям в решении общих информационных задач, в достижении требуемой интеграции и интероперабельности с другими научными учреждениями. В общем случае можно сказать, что информационные системы научных учреждений отличают огромные объемы и низкая структурированность данных, распределенный характер, неоднородность, независимость и разные условия сопровождения, управления и политики доступа к информационным источникам и сервисам. В таких случаях выделяют и стараются решить проблемы общего вида, среди которых следующие: Техническая интероперабельность. Для обеспечения взаимодействия между разнородными информационными источниками необходимо поддерживать согласованные интерфейсы, протоколы и механизмы доступа к информационным ресурсам. Синтаксическая интероперабельность. Данные, доступные из информационных источников, как правило, отличаются синтаксической неоднородностью, разнообразием моделей данных и форм представления данных. Следовательно, необходимо выработать и согласовать унифицирующий подход приведения данных к наиболее распространенным моделям данных и форматам. Использование и сбор метаданных. Для преодоления поисковой «анархии» использовать структурное представление, выделять понятие метаданных (данные о данных), описывающих содержимое ресурса в виде набора именованных значений, в том числе связей с другими ресурсами. Метаданные используются для автоматизированного анализа содержимого ресурса, построения поисковых индексов и позволяют обеспечить достаточно высокую точность и эффективность поиска разнотипной информации. Центральной компонентой в обслуживании слабоструктурированных и унаследованных коллекций информации является процесс “сбора” метаданных, в ходе которого из коллекций в соответствии с требованиями синтаксической интероперабельности извлекаются и структурируются метаданные, формируется индексная информация для обеспечения локального поиска, маршрутизации распределенных запросов, ранжирования результатов запросов. Семантическая интероперабельность. Метаданные могут относиться к различным предметным областям, в рамках одной иметь разные выражение и интерпретацию. Создание и согласование стандартных прикладных профилей метаданных и онтологий упростит интеграцию разнообразных систем, позволит автоматизировать обмен метаданными, их обработку и преобразование, повысить точность и эффективность поиска. Глубина структуризации метаданных о ресурсах должна определяется задачами конкретной системы. В узкопрофессиональных системах она является высокой с тем, чтобы поддержать соответствующие процессы, возможность проведения специальных исследований. Тем не менее, для общих задач интеграции информационных ресурсов высокая степень структуризации не требуется и усложняет процесс. Необходимо выработать подход к наращиванию степени структуризации метаданных, который позволил бы специализировать общие схемы метаданных под потребности конечных приложений; разработать набор элементов метаданных для общей научной информации и некоторые профили метаданных конкретных научных областей, согласуя их с научным сообществом и международными стандартами; обеспечить выделение и согласование стандартных классификаторов ресурсов и тезаурусов. Поддержка глобальной идентификации ресурсов. Использование глобально уникальных идентификаторов дает возможность установления взаимосвязей между ресурсами разных репозиториев (под репозиторием мы понимаем интероперабельный информационный источник, в указанном выше смысле) распределенной среды, объединять связанные данные отдельных репозиториев в виртуально-единые ресурсы. Это предоставит пользователям возможность производить навигацию среди ресурсов всей информационной системы, выполнять косвенный поиск, в том числе и по связям между ресурсами в разных репозиториях, упрощает задачу объединения результатов поисковых запросов разных репозиториев. Совместный поиск – маршрутизация запросов и объединение ответов. Для понижения нагрузки на сеть и повышения эффективности, распределенные запросы должны выполняться не во всем множестве репозиториев, а только в соответствующем запросу подмножестве. Этот процесс называют “маршрутизацией запросов”. При принятии решения используются “предварительные знания” – информацию, распространяемую в среде именно с целью обоснованной рассылки поисковых запросов, и формируемую на основе локальных индексов. Процесс объединения ответов репозиториев, к которым был направлен запрос, в единый ответ системы должен обеспечивать как устранение вторичных вхождений описаний одного и того же ресурса (дублирования описаний), которые с большой вероятностью могут появиться из разных частей распределенной среды, так и обеспечение совместного ранжирования результатов, поступающих от этих частей. Балансировка нагрузки. Для снижения нагрузки на телекоммуникационные и вычислительные ресурсы при обработке запросов, при доступе к часто используемой информации применяются механизмы балансировки нагрузки. Балансировка нагрузки предполагает репликацию метаданных с маломощных серверов на более мощные. В этом случае происходит концентрация поисковой информации на ограниченном числе мощных серверов, участвующих в ответе на поисковые запросы. В рамках обмена и репликации данных встают проблемы обеспечения связывания и интеграции ресурсов независимо сопровождаемых источников информации, выявления дубликатов. Распределенная авторизация доступа и принцип единой аутентификации. Различные информационные источники, составляющие распределенную среду, имеют различные механизмы контроля доступа к информации. Средства контроля доступа должны быть также предоставлены и интегрированным средой, должен быть указан общий подход к безопасности систем. Для того, чтобы избавить пользователя от необходимости регистрироваться в каждом информационном источнике, должен быть поддержан принцип единого входа.
Обзор имеющихся решений 1. Информационно-поисковые подходы Имеется ряд подходов к решению проблем организации распределенных информационных сред и механизмов обнаружения ресурсов в распределенной среде. Файловые системы с глобальной областью действия (anonymous FTP, Andrew File System, Prospero, ALEX, Archie, Gopher) [3, 4, 5, 6, 7] предоставляют мощные возможности для совместного использования больших совокупностей распределенных файлов, для организации коллекций информации. Простота интерфейсов файловых систем способствует их широкому использованию. Свойства, лежащие в основе реализации этих систем, такие, как кэширование, репликация, обеспечивают необходимую эффективность. Иерархические схемы хранения обеспечивают естественную и удобную структуризацию информации, ясность расположения данных. Они располагают своими наборами элементов метаданных, обеспечивают их каталогизацию и используют при поиске ресурсов. Несмотря на то, что файловые системы обеспечивают только довольно примитивные средства управление данными, они могут послужить основой для реализации распределенных информационно-поисковых систем, могут обеспечить обмен данными между серверами одной системы или между разными системами. Некоторые Web-системы используют развитие Интернет-технологий, решая задачу наибольшего охвата информации. Предполагается, что информация в виде документов в одном из популярных форматов (в основном поддерживается HTML, реже – PDF, Postscript, TeX, MS Word, etc.) публикуется в Интернет, т.е. делается доступной по одному из Интернет-протоколов (HTTP, FTP). Никаких ограничений на структуру информации не делается, что стимулирует участие в формировании коллекции наибольших групп людей, и позволяет охватить большое количество информации. Такой объем информации может обрабатываться только автоматически, а отсутствие фиксированной структуры информации ограничивает возможности автоматической обработки, оставляя единственный критерий поиска – вхождение того или иного слова (фразы) в искомые документы. Основной недостаток такого подхода – это большое количество ресурсов, удовлетворяющих запросу. Вхождение слова в документ не всегда означает, что он содержит искомую информацию, и большая часть формально удовлетворяющих запросу документов на деле не интересуют пользователя. Для улучшения качества поиска применяются несколько техник, автоматизированных и предполагающих участие экспертов. Интересные решения были предложены разработчиками системы Harvest [8]. Ее идеи и средства были использованы и развиты в других работах. Harvest предоставляет интегрированный набор инструментальных средств, обеспечивающих автоматический сбор метаданных, хранение, поиск, кэширование и репликацию данных различных форматов. Ключевую роль в системе Harvest играют два ее компонента – «сборщик» (Gatherer) и «посредник» (Broker). Сборщик, анализируя заданные информационные источники, генерирует суммарные сведения о каждом обнаруженном ресурсе источника, записывая их в формате SOIF [9]. Он может извлекать метаданные из текстовых файлов, ресурсов в форматах SGML, HTML, PostScript, TROFF, RTF и массы других форматов, включая программы, бинарные файлы. Сборщик передает экстрагированные сведения о ресурсах источников информации посреднику, который собирает и индексирует получаемые метаданные. Посредник же обслуживает поисковые запросы пользователей системы. В целях балансировки нагрузки посредники могут составлять иерархические структуры, в пределах которых осуществляется маршрутизация и обработка запросов. Реализация системы ROADS [10] была ориентирована на создание инфраструктуры для поддержки распределенных тематических каталогов. В основе системы лежит база данных описаний ресурсов в формате IAFA [11]. Записи базы данных хранят широкий диапазон информации о ресурсе: заголовок, описание, ключевые слова, URL, классификаторы, информация для администрирования. ROADS использует эту информацию для автоматического построения Web-страниц, обеспечивающих просмотр информации БД. Реализация распределенного поиска, извлечения данных основывается на использовании протокола WHOIS++[12]. WHOIS++ индексы каждой коллекции хранятся ROADS в файловой системе. Индексы, называемыецентроидами, представляют собой структуры, которые для каждого атрибута содержат словарь слов, входящих в значения этого атрибута в каком-либо описании ресурсов. Индекс, построенный сервером для своей базы данных, может использоваться другими серверами. Система ISAAC [13] имеет два вида установок: полный узел, который поддерживает все три типа служб (репозиторий метаданных, индекс и поиск), и узел коллекции, который поддерживает только службу репозитория метаданных. Полный узел хранит индексы со всех других узлов наряду с собственными данными. Служба репозитория метаданных использует LDAP протокол для приема поисковых запросов. Для связывания географически распределенных коллекций и передачи индексов между серверами используется протокол CIP (Common Indexing Protocol) [14]. В системе NCSTRL [15] все службы взаимодействуют в соответствии с протоколом Dienst, реализованном на основе протокола HTTP. Пользовательские запросы преобразуются в параллельные запросы к индексным серверам системы, распределенным в Интернет. Документы хранятся в FTP-репозиториях. Для описания ресурсов используется формат [16]. Протокол Dienst лег в основу протокола OAIP [17], предложенного Open Archives Initiative [18] – организацией, разрабатывающей и продвигающей стандарты, ориентированные на поддержку интероперабельности данных и способствующие эффективному распространению информации. 2. Базы данных и Web-технологии Однако, как указывалось выше, для интеграции информации научных учреждений даже весьма совершенные средства документального поиска с весьма изощренными методами индексирования и частичной структуризацией не предоставляют возможностей достаточно эффективного представления. Здесь требуется более четкая, формальная и подробная структуризация, использующая все преимущества классических моделей баз данных, но обеспечивающая в то же время интеграцию в Web. Наиболее подходящей основой представляется ER-модель (сущности-связи), широко применяемая для проектирования «концептуальных» схем БД различных моделей. Однако, в отличие от реляционного языка SQL, ER-модель так и не была оформлена в виде полноценного стандартного языка, и никак не учитывает специфику использования в Web. Также и стандартизация «интероперабельных» процедурных средств доступа к БД (ODBC, JDBC и др.) не имеет непосредственного отношения к обеспечению распределенного доступа через Web. Для интеграции информации, соответствующей различным моделям данных, необходима каноническая модель данных, которая была бы наиболее удобна для решения рассматриваемых вопросов. Прежде всего, желательно, чтобы эта модель данных соответствовала “объектной” парадигме, поскольку это более абстрактная, существенно более богатая семантически и более естественная форма представления информации чем, например, реляционная модель данных, подходящая для задач хранения, поиска и получения информации. Во-вторых, желательно следовать последним Web-стандартам, в первую очередь требованиям XML-технологий – представление данных в форме XML весьма удобно для обмена информацией в Интернет и обеспечивает требуемый уровень синтаксической интероперабельности. В-третьих, модель данных должна допускать существование распределенной информации. Как следствие этих требований, были выбраны технологии Semantic Web [19, 20, 21] как базис архитектуры. Этот W3C проект продолжает линию эволюции Web – от гипертекста к структурированным XML-документам и далее к эффективной машинной обработке данных и интеграции разбросанной в Web информации. Resource Description Framework (RDF) [22], модель данных Semantic Web, представляет собой обобщение ER-модели данных для ее применения в Web. RDF модель данных хорошо согласуется с требованиями концептуального проектирования. Для записи RDF-данных W3C-спецификация предлагает XML-синтаксис (RDF/XML). Это XML-представление “объектных” данных используется для всех задач, связанных с обменом и представлением информации. Язык RDF Schema позволяет определять структурированные словари метаданных. Применение стандартных словарей свойств информационных ресурсов, предоставляемых, в частности, Dublin Core Metadata Initiative (DCMI) [23], Publishing Requirements for Industry Standard Metadata (PRISM) и пр., гарантирует высокую степень семантической интероперабельности, и облегчает интеграцию данных. 3. Варианты метаданных Как уже указывалось выше, метаданные – это информация, сведения о данных. Сведения эти могут быть отражением внутреннего содержания и структуры данных, то есть быть получены на основании самих данных, и быть предназначены длянекоторых программных средств. Сведения могут характеризовать отношение других данных или программных средств к этим данным – среду нахождения, употребления данных. Метаданные можно рассматривать как набор утверждений о свойствах характеризуемого ресурса вида: “ресурс имеет свойство, описываемое значениями”. В программных системах метаданные принимают форму: имя утверждения и набор параметров утверждения. Утверждения называют атрибутами ресурса и говорят, что метаданные характеризуют ресурс посредством набора пар (атрибут, значение), где атрибут именует свойство ресурса, а значение описывает это свойство. Метаданные могут иметь разнообразное назначение. Они могут определять диапазон возможностей поиска ресурса, определять возможности навигации, характеризовать правила работы с ресурсами данного типа, предоставлять разнообразную административную информацию о ресурсе и т.п. В соответствии с использованием метаданных принято выделять три основных типа метаданных: Описательные – «интеллектуальное» описание ресурса, используемое как основа для его нахождения с помощью поисковых запросов или навигации по информационному пространству. Структурные – описывают внутреннее устройство ресурса, используемое при визуализации его содержания, навигации по нему. Например, к ним относятся SGML, XML и RTF. Административные – управляющая информация, например, время создания, последней модификации, права доступа, стратегии индексирования и репликации. В частности, это информация, обеспечивающая контроль доступа к ресурсам, выполнение требований интеллектуальной собственности, контроль поступления оплаты, контроль условий, на которых были предоставлены материалы и т.д. В конкретных реализациях может использоваться более детальная классификация типов метаданных. В первую очередь это относится к административным метаданным, которые делятся в соответствии с поддерживаемой ЦБ функциональностью. Важнейшей, особенно для нашей задачи представления научных данных, является задача выбора одного илинескольких наборов элементов метаданных, поддерживаемых и используемых информационной системой. С этим связано определение того, какая информация должна поддерживаться, что необходимо сейчас, что потребуется в будущем и т.п. Это предполагает либо использование готовых стандартов, либо корпоративную стандартизацию элементов, их представления, их отображения на общепризнанные стандарты. Подобные вопросы могут решаться только в соответствии с общепризнанными соглашениями, которые требуют большого количества участников и усилий. На текущий момент в международном сообществе имеется весьма обширное множество предложений наборов метаданных, например Dublin Core Metadata Set [24] о котором уже говорилось, Electronic Business Card [25], Instructional Management Systems [26], Global Information Locator Service [27], Metadata Interchange Specification [28] и другие. Имеются узко специализированные стандарты метаданных для разных областей человеческого знания и деятельности, например, для областей науки – [29] (Chemical Exchange Format), [30], [31], [32], [33], [34]. Определение элементов метаданных может быть задано неформально, но может использоваться некий формальный стандарт. Формализация помогает улучшить взаимодействие с другими сообществами, использующими метаданные, повысить четкость, определить границы и внутреннюю связь определений элементов метаданных. Например, стандарт спецификации элементов данных ISO/IEC 11179 [35] использован в определении Dublin Core Metadata Set,Chemical Exchange Format дан в абстрактной синтаксической нотации ASN.1, одно из определений Electronic Business Card приведено на языке описания схем метаданных RDFS [36], который наилучшим образом подходит для задач рассматриваемого проекта. Если определение метаданных включает только описание элементов, то есть стандартизуемых атрибутов (свойств) информационных ресурсов, говорят о наборе элементов метаданных. Если определение метаданных описано на формальном языке, например, RDFS, или оговаривает не только допустимые атрибуты, но и представляет иерархию понятий предметной области, описывает важные характеристики каждого понятия, то говорят о схеме метаданных, а иногда об онтологии. Другой существенный аспект метаданных связан с записью метаданных в общепризнанной форме, которая может быть использована для осуществления обмена метаданными и совместного поиска. Так W3C предлагает методику описания ресурсов RDF, сообщество Object Management Group (OMG) – технологию Meta Object Facility [37], XML Metadata Interchange [38] и Meta Data Coalition выдвигают спецификацию MDIS [ 39]. Для Интернет были предложены некоторые относительно простые форматы описания информационных ресурсов, работа с которыми не требует серьезного предварительного обучения, ориентированных на то, чтобы соответствующие описания могли формироваться обширной коалицией лиц, организаций, вовлеченных в создание Интернет ресурсов. К таким форматам относятся форматы: [40] – формат для обмена библиографическими записями научных, технических отчетов по электронной почте, [41] – формат записей для описания разнообразных ресурсов FTP-архивов, SOIF – формат для сбора информации о подлежащих индексированию ресурсов. Существенным недостатком многих схем метаданных является то, что они работают с так называемыми документо-подобными объектами (ДПО), определяют метаданные, описывающие только такие ресурсы, не выделяют другие виды важных объектов, например, персоналии, организации, проекты, семинары, конференции и т.п. В итоге, например, встретив упоминание персоны в одном месте, невозможно точно установить соответствие с ее упоминанием в другом месте. Даже идентифицировав каким-то образом персону, нет возможности получить документы, связанные только с ней. Это обусловлено тем, что метаданные рассматриваются как нечто неделимое, связанное только с документом, как качественные данные для “полнотекстовой” индексации значений атрибутов. Они не выделяют типы ресурсов, используют средства идентификации ресурсов только для документов и только для целей их извлечения. Таким образом, для реализации распределенной системы необходимо решение следующих задач: Для наборов элементов метаданных и их форматов в процессе реализации обмена данными со специализированными или унаследованными системами, коллекциями информации потребуется создание служб преобразования метаданных этих форматов. Для достижения максимальной интероперабельности по общезначимой информации необходимы такие наборы элементов метаданных, которые не делали бы каких-либо предположений относительно специфики предметной области. На такую роль в первую очередь подходит набор элементов метаданных Dublin Core Metadata Set. Могут быть также использованы предложения Electronic Business Card и [42]. Технологии Semantic Web * * * Литература 1. European Research Gateways Online http://www.cordis.lu/ergo 2. Laitinen, Sauli; Sutela Pirjo & Tirronen, Kerttu, Development of Current Research Information Systems in Finland, proceeding of CRIS-2000 3. Sidebotham R.N. Volumes: The Andrew File System data structuring primitive. In European Unix User Group Conference Proceedings, August 1986. 4. Neuman B. C. The Prospero File System: A Global File System Based on the Virtual System Model. Computing Systems, 5(4), pp. 407-432, Fall 1992, ftp://prospero.isi.edu/pub/prospero/. 5. Vincent Cate. Alex – a global filesystem. Proceedings of the Usenix File Systems Workshop, pp. 1-11, Ann Arbor, MI, May 1992., ftp://alex.sp.cs.cmu.edu/usr0/anon/doc/. 6. Alan Emtage and Peter Deutsch. Archie – an electronic directory service for the Internet. Proceedings of the USENIX Winter Conference, pages 93--110, January 1992. 7. Mark McCahill. The Internet Gopher: A distributed server information system. ConneXions – The Interoper- ability Report, 6(7):10--14, July 1992. 8. Harvest system web site; http://harvest.transarc.com/ 9. “Harvest User Manual, Appendix B”, http://harvest.cs.colorado.edu/Harvest/brokers/%20soifhelp.html 10. Jon P. Knight and Martin Hamilton. “Overview of the ROADS software”, (LUT CS-TR 1010), March 1996. http://www.roads.lut.ac.uk/Reports/arch/arch.html 11. Beckett D.J. “IAFA templates in use as internet metadata”, World Wide Web Journal – Proceedings of the Fourth International World-Wide Web Conference, 1(1):135-143, 1995, http://www.hensa.ac.uk/tools/www/iafatools/paper/index.html 12. Deutsch P., Schoultz R., Faltstrom P., Weider C. “Architecture of the whois++ service”, RFC 1835, ftp://ds.internic.net/rfc/rfc1835.txt 13. Michael Roszkowski and Christopher Lukas, A Distributed Architecture for Resource Discovery Using Metadata, D-Lib Magazine, June 1998. http://scout.cs.wisc.edu/research/isaac/index.html 14. Common Indexing Protocol. http://www.rfc-editor.org/cgi-bin/rfcsearch.pl?searchwords=CIP%20&num=1500&format=ftp 15. Davis, J. R. and C. Lagoze, "NCSTRL: Design and Deployment of a Globally Distributed Digital Library," to appear in Journal of the American 16. R. Lasher & D. Cohen. “A Format for Bibliographic Records”, June 1995, RFC 1807 17. Open Archives Initiative Protocol for Metadata Harvesting, http://www.openarchives.org/OAI/openarchivesprotocol.htm 18. Open Archives Initiative, http://www.openarchives.org/ 19. Бездушный А.А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А., Сысоев Т.М. "Архитектура RDFS-системы. Практика использования открытых стандартов и технологий SemanticWeb в системе ИСИР", Пятая Всероссийская научная конференция: "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург, 2003. 20. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Кулагин М.В., Серебряков В.А. RDF схема метаданных ИСИР. // Сборник научных трудов X научно-практического семинара "Новые технологии в информационном обеспечении науки". Москва: 2003, с.141-159. 21. Government Application Profile. http://dublincore.org/documents/ gov-application-profile/ 22. RDF Primer. W3C Recommendation 10 February 2004. http://www.w3.org/TR/rdf-primer/ 23. Expressing Qualified Dublin Core in RDF/XML. http://dublincore.org/documents/dcq-rdf-xml/ 24. Dublin Core Metadata Initiative, http://dublincore.org/ 25. vCard: The Electronic Business Card, http://www.imc.org/pdi/ 26. IMS Metadata Specification, http://www.imsproject.org/md_overview.html, http://www.imsproject.org/technical/metadata/library 27. Global Information Locator Service (GILS), Guidelines for the Preparation of GILS Core Entries, http://gopher.nara.gov:70/0/managers/gils/guidance/gilsdoc.txt 28. Meta Data Interchange Specification (MDIS Version 1.1), The Meta Data Coalition, http://www.mdcinfo.com/standards/toc.html 29. Chemical Exchange Format, http://www.ibc.wustl.edu/~states/cgi-bin/ViewASN.1Def.cgi?%20FILE=CXF&MODULE=CXF-10&INDEX=1 30. Crystallographic Information File, http://www.iucr.ac.uk/iucr-top/cif/standard/cifstd1.html 31. Joint Committee on Atomic and Molecular Physical Data Exchange Standards, http://www.isas-dortmund.de/projects/jcamp/jcamp.htm, http://members.aol.com/rmcdjcamp/%20index.htm 32. Common European Research Information Format, http://www.cordis.lu/cerif 33. CERIF data model, http://www.cordis.lu/cerif/src/datamodels.htm 34. CERIF guidelines for developing Information Systems for research and technology, ftp://ftp.cordis.lu/pub/cerif/docs/cerif2000.htm 35. ISO/IEC 11179, Specification and Standardization of Data Elements; ftp://sdct-sunsrv1.ncsl.nist.gov/x3l8/11179. 36. Resource Description Framework (RDF) Schema Specification // http://www.w3.org/TR/2000/CR-rdf-schema-20000327 37. Meta Object Facility (MOF) Specification, OMG Document, http://www.omg.org/ 38. XML Metadata Interchange, ftp://ftp.omg.org/pub/docs/ad/98-10-05.pdf 39. Meta Data Interchange Specification (MDIS Version 1.1), The Meta Data Coalition, http://www.mdcinfo.com/standards/toc.html 40. Lasher R. & Cohen D. “A Format for Bibliographic Records”, June 1995, RFC 1807 41. Beckett D.J. “IAFA templates in use as internet metadata”, World Wide Web Journal – Proceedings of the Fourth International World-Wide Web Conference, 1(1):135-143, 1995, http://www.hensa.ac.uk/tools/www/iafatools/paper/index.html 42. Common European Research Information Format, http://www.cordis.lu/cerif 43. OWL, язык Web-онтологий. Руководство. Рекомендация W3C 10 февраля 2004. http://sherdim.rsu.ru/pts/semantic_web/REC-owl-guide-20040210_ru.html#StructureOfOntologies