Пожалуйста подождите... loading
10-07-2014

Свободное ПО для создания электронный библиотек | Омека, как инструмент коллективного создания электронной библиотеки

В рамках работы по созданию Электронной библиотеки произведений великих русских учёных ХVII – XIX веков перед исполнителями проекта ставилась задача  разработки такой технологии организации электронной библиотеки, чтобы она могла быть использована небольшим коллективом учёных. Следует отметить, что в настоящее время существует достаточное количество программного обеспечения для создания больших и малых электронных библиотек, среди которых используются как зарубежные (SOLR, Greenstone), так и российские (Tlibra и Ирбис) системы. Однако все они реализуют только библиотечные процессы  каталогизации полных текстов библиотекарями, и организации поиска на сайте электронной библиотеки.  В случае создания электронной библиотеки  специалистами в определённой предметной области и для специалистов возникают дополнительные задачи.  Попробуем на примере нашего проекта выявить круг этих задач и возможные методы их решения.

  1.  Распределение  экспертов во времени и пространстве. Как правило, специалисты по истории науки –  люди занятые во множестве проектов и должны иметь возможность работать  там где им удобно, и тогда когда им удобно. Поэтому система должна иметь достаточно простой WEB интерфейс  для ввода данных. Нужно сказать, что это условие самое простое и ему удовлетворяют почти все системы, но хотелось бы подчеркнуть, что мы планировали работать именно с виртуальным исследовательским коллективом.
  2. Созданная электронная библиотека должна быть вписана в соответствующий сайт, на котором кроме поисковых форм должны присутствовать информация о проекте, система навигации и прочие элементы дизайна. Среди историков немного  ИТ специалистов, способных объединить в одно целое систему для создания сайта (CMS) и электронную библиотеку. Поэтому нам нужна система для создания электронной библиотеки, в которой уже были бы встроены возможности CMS.
  3. Как показывает опыт, каждый эксперт может иметь своё собственное мнение по поводу любого документа, включаемого в электронную библиотеку, поэтому необходимо обеспечить возможность обсуждения каждого документа, а система должна  иметь сервис комментирования.
  4. Очень много информации о российских учёных уже существует в различных базах, каталогах и электронных библиотеках. Поэтому для обогащения нашей библиотеки система должна уметь отправлять запросы по различным протоколам (OAI-PMH, LOD и т.п.) в многочисленные внешние источники для получения дополнительной информации.
  5. Основными объектами, хранящимися в создаваемой электронной библиотеке, являются книги и статьи. Чаще всего они поступают в  виде отсканированных  и нераспознанных образов. Для возможности проведения поиска и частичного их копирования  нужен сервис распознавания. Однако книги ХVII – XIX веков  не очень хорошо распознаются даже средствами FineReader и их результаты нуждаются в корректировке. Процесс этот довольно трудоёмкий и необходимо иметь возможность разделить обязанности по исправлению книги среди нескольких создателей библиотеки. Иными словами, нужен инструмент для коллективной работы по корректировке текста.  Важность коллективной работы в виртуальной среде отмечала Бандурина И.А [1] и авторы совершенно с ней согласны.
  6. Система должна поддерживать полнотекстовый поиск.

Для выбора нужного инструмента было оценено несколько систем.  Поскольку самым существенным и ограничивающим авторов проекта условием было совмещение функций CMS и электронной библиотеки, то анализ начался с портальных систем, для которых разработаны библиотечные модули. На сегодняшний день наиболее распространёнными являются MS SharePoint, к которому можно подключать внешние модули, Joomlа с модулем BookLibrary и  Drupal с модулем Biblio. Опыт работы с MS SharePoint показал, нецелесообразность рекомендации его коллективу историков для внедрения из-за сложности установки и настройки. Joomlа с модулем BookLibrary довольно успешно применяется в  Российской государственной детской библиотеке для электронного каталога «Детям и о детях: издательства России сегодня»[2]. Опыт использования Drupal имеется в Институте вычислительных технологий СО РАН.  В статье Леоновой Ю. В. И  Федотова А.М.,  [3] приведено сравнение Joomlа с Drupal и дано подробное описание последнего. Отметим, что обе системы имеют очень мощные составляющие для создания сайта и довольно развитые, но типично библиотечные составляющие, которые являются отдельным, закрытым для внешнего разработчика  плагином. Сложность установки, настройки и отсутствие  ряда необходимых функций не позволили выбрать эти системы для решения поставленной задачи. Поэтому авторы остановились на разработке Центра истории и новых медиа Роя Розенцвейга, находящегося в Фаерфаксе, Вирджиния, США(RoyRosenzweigCenterforHistoryandNewMediahttp://chnm.gmu.edu/OMEKA.

«Омека» – это бесплатная, гибкая и открытая платформа для представления цифровых данных в сети Интернет. Она достаточно проста в использовании и подойдёт для библиотек, музеев, архивов. «Омека» – это слово на суахили означает: «разложить товар для продажи». Система спроектирована с учётом использования её нетехническими специалистами и позволяет сосредоточиться на данных и их представлении, а не на программировании.

Области применения

ОМЕКА рассчитана на различных пользователей и используется во многих проектах (Рис.1). Нередко учёные используют  её для публикации эссе или диссертаций, для совместного использования оригиналов коллекций, а также для совместной работы в создании цифрового контента (например, Digital Worcesterhttp://www.digitalworcester.org/, или  The World at the Fair http://uclawce.ats.ucla.edu/).

Специалисты музейного дела пользуются ей для создания  онлайн коллекций, которые не могут быть показаны в обычных условиях.  Посетители могут проставить метки на образцах или пометить их как «любимые» и отправить информацию о них в различные социальные сети. (например, Inventing Europe: Technology and the Making of Europe http://www.inventingeurope.eu  или Gulag: Many Days, Many Lives  http://gulaghistory.org/ ).

Для библиотекарей целесообразно её использование для представления каталогов онлайн или для публикации цифровых выставок (например, проект The Ringwood Public Library “Upper Ringwood”http://www.upperringwood.org/index.php или проект библиотеки университета Орегона “Fighters on the Farm Front”http://scarc.library.oregonstate.edu/omeka/exhibits/show/fighters ).

Рисунок 1 пользовательская экосистема

Рис. 1. Пользовательская экосистема

Преподавателям она может быть интересна при создании проверочных тестов для студентов, они могут разрабатывать учебные планы и создавать учебные модули.[5] (например, проект  Laurel Grove School в Вирджинии  http://chnm.gmu.edu/laurelgrove или проект Children and Youth in History http://chnm.gmu.edu/cyh/).

Если говорить о технической стороне, то ОМЕКА лежит на пересечении трёх областей:  управление веб сайтом, создание электронных библиотек, создание виртуальных музеев (Рис. 2).

 

рисунок 2 технологическая экосистема

Рис. 2  Технологическая экосистема

Если говорить о конкретном применении ОМЕКА к поставленной авторам задаче, то  у нас было более 300 библиографических записей в формате MARC21 и отсканированные, нераспознанные книги в формате PDF, соответствующие этим записям. Необходимо было разработать и внедрить технологию, при помощи которой силами виртуального научного коллектива можно было бы создать электронную библиотеку, способную интегрироваться в мировое научное пространство и соответствующую основным требованиям к электронной библиотеке изложенным выше. Остановимся на сегодняшних результатах, поскольку говорить об итогах рано – система постоянно дорабатывается. По адресу http://195.74.82.67/omekaPortal/ можно посмотреть, как выглядит  интерфейс электронной библиотеки для читателей (Рис. 3).

В соответствии с идеологией ОМЕКА в системе существует три вида сущностей:

  • Библиографические записи – это описания основных единиц хранения в ЭБ (в нашем случае книги и статьи), в формате Dublin Core  (простом или расширенном).
  • Коллекция – описание совокупности библиографических записей в формате Dublin Core. В каждой записи проставляется признак принадлежности к той или иной коллекции, которые могут иметь отношение «выше – ниже» относительно друг друга, и на главной странице они могут быть представлены в виде дерева  коллекций.
  • Выставка – это совокупность предварительно отобранных библиографических записей и элементы дизайна, в котором они представляются пользователю.

Оценивая поставленные задачи и возможности дальнейшего использования ОМЕКА, мы пришли к выводу, что для разрабатываемого проекта наиболее подходит режим выставки по каждому учёному с возможностью включения туда его трудов и работ о нём. Кроме этого  читателям доступны такие средства навигации как временная лента, в которой отражаются годы создания работ, географическое распределение работ по местам их создания (Рис. 5) и возможности комментирования каждой записи.

рисунок 3 пример описания коллекции

Рис. 3. Пример описания коллекции

рисунок 4 географическое распределение работ Рис. 4. Географическое распределение работ по местам их создания

Понравившиеся записи пользователи могут отметить средствами огромного количества социальных сетей, список которых настраивается дополнительно и/или отправить по почте.

Одно из наиболее полезных и  интересных свойств ОМЕКИ –  возможность организации коллективных работ по распознаванию текста. Для этого, кстати, также, как и для полнотекстового поиска используется MediaWiki, которая устанавливается на том же сервере, что и ОМЕКА и хранит все изменения распознанного текста. Для каждой страницы хранимой книги можно назначить отдельный процесс распознавания. На экран одновременно выводиться изображение и предоставляется окно текстового редактора для ввода (редактирования) текста (Рис. 5).

Рисунок 5 Пример распознования страницы книгиРис. 5. Пример распознавания страницы книги

В любой момент можно посмотреть, кто внёс последние изменения в текст и при случае вернуть изменения назад.

Для ввода информации в ЭБ предусмотрены следующие методы:

  • Заполнение форм в формате Dublin Core. Этот метод довольно стандартный, но следует обратить внимание на интересную возможность: при заполнении ряда полей можно автоматически обратиться в  нормативную базу библиотек Конгресса США для подсказки стандартной формулировки предметной рубрики, наименования места, языка и т.п.
  • Импорт библиографических записей в формате Dublin Core. Следует отметить, что для импорта нужно представить данные в структуре CSV. Это не обычная практика и нам оказалось проще самим написать конвертер из Dublin Core в CSV, чем искать готовый.
  • Получение данных по протоколу OAI-PMH. ОМЕКА может работать как OAI-PMH –Харвестер и как OAI-PMH-Провайдер. Метаданные нашей электронной библиотеки можно получить по адресуhttp://195.74.82.67/omekaPortal/oai-pmh-repository/request.

Одной из важных задач, которая ставилась перед системой –  возможность обогащения наших метаданных данными из других библиотек. К сожалению, ОМЕКА такую возможность не предоставляет, но у неё есть возможность написания дополнительных плагинов на PHP. Поэтому авторами проекта был разработан дополнительный плагин, который обращается в Europeana с HTTP запросом, и во всем известное хранилище Linked Open Data – Dbpedia на языке SPARQL (текст запроса автоматически составляется на основе содержимого поля Subject). Полученные результаты записываются в библиографические записи в поле «Relation» в виде ссылок на документы в Europeana и Dbpedia (Рис. 6). Пример запроса, отправляемого в Dbpedia, приведен ниже

SELECT ?person

WHERE {

?person <http://xmlns.com/foaf/0.1/surname> ?sName.

FILTER (REGEX(STR(?sName), \”$sName\”)).

?person <http://xmlns.com/foaf/0.1/givenName> ?gName.

FILTER (REGEX(STR(?gName), \”$gName\”)). }

LIMIT 100

 

Результат выглядит следующим образом:

рисунок 6 Обогащение записи

Рисунок  6. Обогащение записи ссылкой на Dbpedia

Подобным образом можно получать информацию из различных источников. Следует отметить, что несмотря на всеобщее обсуждение на международных конференциях Linked Open Data(LOD) и восторгов по поводу его применения, мы столкнулись с тем, что многие источники публикуют далеко не всю информацию по LOD, некоторые периодически отключаются без предупреждений, а в некоторых формат SPARQLзапроса требует особенного синтаксиса, который не очень просто выяснить.

В заключение можно сказать, что ОМЕКА оправдала наши ожидания. Действительно, это простая система, легкая в установке, настройке и эксплуатации. Документация достаточно подробная[6], для испытания этой системы нет необходимости ее устанавливать у себя на сервере. Можно попробовать бесплатно создать свою электронную библиотеку для экспериментов на сервере http://www.omeka.net/. У ОМЕКА нет больших возможностей по конструированию сайтов, но все необходимое для сайта электронной библиотеки присутствует. Создатели ЭБ могут вводить данные, экспортировать и импортировать их, комментировать описания и совместно редактировать плохо распознанные тексты. Они могут обогащать свою коллекцию сведениями из других источников и разделять итог своего труда со всем миром. Не обходится, конечно, и без недостатков. Так мы столкнулись c тем, что ряд готовых плагинов конфликтуют между собой, одна запись может принадлежать только к одной коллекции, большая часть плагинов, которые были сделаны для первой версии ОМЕКА, не совместимы со второй версией. То есть мы еще раз убедились, что нет в мире совершенства.

Литература:

1.  Бандурина И.А. Научная мобильность как фактор профессионального развития ученого в эпоху глобализации [Электронный ресурс] / И.А. Бандурина // «Преподаватель высшей школы в ХХI веке». Юбилейная международная научно-практическая интернет-конференция. Секция «Профессионально-педагогическая культура преподавателя вуза, его компетенции и оценка эффективности педагогической деятельности» (10 ; 2013 ; Ростов на Дону). Материалы. – Режим доступа : http://www.t21.rgups.ru/sections/prof-pedag_kultura_prepod_vuza

2. Сайт проекта «Детям и о детях: издательства России сегодня»http://cat.rgdb.ru/ .

3. Леонова Ю. В., Федотов А.М., Подход к построению электронных библиотек  для поддержки коллективной работы сотрудников // Труды  12 й   Всероссийской  научной  конференции «Электронные  библиотеки:  перспективные  методы  и технологии,  электронные  коллекции»  –  RCDL’2010, Казань, Россия, 2010,

4. Kucsma, J.Reiss, K.,Sidman, A. Using omeka to build digital collections: The METRO case study //D-Lib Magazine   Volume 16, Issue 3-4, 2010. – Режимдоступа:http://www.dlib.org/dlib/march10/kucsma/03kucsma.html

5. Allison C. Marsh, Omeka in the classroom: The challenges of teaching material culture in a digital world// Lit Linguist Computing (2013) 28 (2): 279-282 doi:10.1093/llc/fqs068.

 

6. Сайт ОМЕКА – http://omeka.org/ 

 

Источник

Поделиться в соцсетях

Вернуться к списку