Свободное ПО для создания электронный библиотек | Омека, как инструмент коллективного создания электронной библиотеки
В рамках работы по созданию Электронной библиотеки произведений великих русских учёных ХVII – XIX веков перед исполнителями проекта ставилась задача разработки такой технологии организации электронной библиотеки, чтобы она могла быть использована небольшим коллективом учёных. Следует отметить, что в настоящее время существует достаточное количество программного обеспечения для создания больших и малых электронных библиотек, среди которых используются как зарубежные (SOLR, Greenstone), так и российские (Tlibra и Ирбис) системы. Однако все они реализуют только библиотечные процессы каталогизации полных текстов библиотекарями, и организации поиска на сайте электронной библиотеки. В случае создания электронной библиотеки специалистами в определённой предметной области и для специалистов возникают дополнительные задачи. Попробуем на примере нашего проекта выявить круг этих задач и возможные методы их решения.
- Распределение экспертов во времени и пространстве. Как правило, специалисты по истории науки – люди занятые во множестве проектов и должны иметь возможность работать там где им удобно, и тогда когда им удобно. Поэтому система должна иметь достаточно простой WEB интерфейс для ввода данных. Нужно сказать, что это условие самое простое и ему удовлетворяют почти все системы, но хотелось бы подчеркнуть, что мы планировали работать именно с виртуальным исследовательским коллективом.
- Созданная электронная библиотека должна быть вписана в соответствующий сайт, на котором кроме поисковых форм должны присутствовать информация о проекте, система навигации и прочие элементы дизайна. Среди историков немного ИТ специалистов, способных объединить в одно целое систему для создания сайта (CMS) и электронную библиотеку. Поэтому нам нужна система для создания электронной библиотеки, в которой уже были бы встроены возможности CMS.
- Как показывает опыт, каждый эксперт может иметь своё собственное мнение по поводу любого документа, включаемого в электронную библиотеку, поэтому необходимо обеспечить возможность обсуждения каждого документа, а система должна иметь сервис комментирования.
- Очень много информации о российских учёных уже существует в различных базах, каталогах и электронных библиотеках. Поэтому для обогащения нашей библиотеки система должна уметь отправлять запросы по различным протоколам (OAI-PMH, LOD и т.п.) в многочисленные внешние источники для получения дополнительной информации.
- Основными объектами, хранящимися в создаваемой электронной библиотеке, являются книги и статьи. Чаще всего они поступают в виде отсканированных и нераспознанных образов. Для возможности проведения поиска и частичного их копирования нужен сервис распознавания. Однако книги ХVII – XIX веков не очень хорошо распознаются даже средствами FineReader и их результаты нуждаются в корректировке. Процесс этот довольно трудоёмкий и необходимо иметь возможность разделить обязанности по исправлению книги среди нескольких создателей библиотеки. Иными словами, нужен инструмент для коллективной работы по корректировке текста. Важность коллективной работы в виртуальной среде отмечала Бандурина И.А [1] и авторы совершенно с ней согласны.
- Система должна поддерживать полнотекстовый поиск.
Для выбора нужного инструмента было оценено несколько систем. Поскольку самым существенным и ограничивающим авторов проекта условием было совмещение функций CMS и электронной библиотеки, то анализ начался с портальных систем, для которых разработаны библиотечные модули. На сегодняшний день наиболее распространёнными являются MS SharePoint, к которому можно подключать внешние модули, Joomlа с модулем BookLibrary и Drupal с модулем Biblio. Опыт работы с MS SharePoint показал, нецелесообразность рекомендации его коллективу историков для внедрения из-за сложности установки и настройки. Joomlа с модулем BookLibrary довольно успешно применяется в Российской государственной детской библиотеке для электронного каталога «Детям и о детях: издательства России сегодня»[2]. Опыт использования Drupal имеется в Институте вычислительных технологий СО РАН. В статье Леоновой Ю. В. И Федотова А.М., [3] приведено сравнение Joomlа с Drupal и дано подробное описание последнего. Отметим, что обе системы имеют очень мощные составляющие для создания сайта и довольно развитые, но типично библиотечные составляющие, которые являются отдельным, закрытым для внешнего разработчика плагином. Сложность установки, настройки и отсутствие ряда необходимых функций не позволили выбрать эти системы для решения поставленной задачи. Поэтому авторы остановились на разработке Центра истории и новых медиа Роя Розенцвейга, находящегося в Фаерфаксе, Вирджиния, США(RoyRosenzweigCenterforHistoryandNewMediahttp://chnm.gmu.edu/) OMEKA.
«Омека» – это бесплатная, гибкая и открытая платформа для представления цифровых данных в сети Интернет. Она достаточно проста в использовании и подойдёт для библиотек, музеев, архивов. «Омека» – это слово на суахили означает: «разложить товар для продажи». Система спроектирована с учётом использования её нетехническими специалистами и позволяет сосредоточиться на данных и их представлении, а не на программировании.
Области применения
ОМЕКА рассчитана на различных пользователей и используется во многих проектах (Рис.1). Нередко учёные используют её для публикации эссе или диссертаций, для совместного использования оригиналов коллекций, а также для совместной работы в создании цифрового контента (например, Digital Worcesterhttp://www.digitalworcester.org/, или The World at the Fair http://uclawce.ats.ucla.edu/).
Специалисты музейного дела пользуются ей для создания онлайн коллекций, которые не могут быть показаны в обычных условиях. Посетители могут проставить метки на образцах или пометить их как «любимые» и отправить информацию о них в различные социальные сети. (например, Inventing Europe: Technology and the Making of Europe http://www.inventingeurope.eu или Gulag: Many Days, Many Lives http://gulaghistory.org/ ).
Для библиотекарей целесообразно её использование для представления каталогов онлайн или для публикации цифровых выставок (например, проект The Ringwood Public Library “Upper Ringwood”http://www.upperringwood.org/index.php или проект библиотеки университета Орегона “Fighters on the Farm Front”http://scarc.library.oregonstate.edu/omeka/exhibits/show/fighters ).
Рис. 1. Пользовательская экосистема
Преподавателям она может быть интересна при создании проверочных тестов для студентов, они могут разрабатывать учебные планы и создавать учебные модули.[5] (например, проект Laurel Grove School в Вирджинии http://chnm.gmu.edu/laurelgrove или проект Children and Youth in History http://chnm.gmu.edu/cyh/).
Если говорить о технической стороне, то ОМЕКА лежит на пересечении трёх областей: управление веб сайтом, создание электронных библиотек, создание виртуальных музеев (Рис. 2).
Рис. 2 Технологическая экосистема
Если говорить о конкретном применении ОМЕКА к поставленной авторам задаче, то у нас было более 300 библиографических записей в формате MARC21 и отсканированные, нераспознанные книги в формате PDF, соответствующие этим записям. Необходимо было разработать и внедрить технологию, при помощи которой силами виртуального научного коллектива можно было бы создать электронную библиотеку, способную интегрироваться в мировое научное пространство и соответствующую основным требованиям к электронной библиотеке изложенным выше. Остановимся на сегодняшних результатах, поскольку говорить об итогах рано – система постоянно дорабатывается. По адресу http://195.74.82.67/omekaPortal/ можно посмотреть, как выглядит интерфейс электронной библиотеки для читателей (Рис. 3).
В соответствии с идеологией ОМЕКА в системе существует три вида сущностей:
- Библиографические записи – это описания основных единиц хранения в ЭБ (в нашем случае книги и статьи), в формате Dublin Core (простом или расширенном).
- Коллекция – описание совокупности библиографических записей в формате Dublin Core. В каждой записи проставляется признак принадлежности к той или иной коллекции, которые могут иметь отношение «выше – ниже» относительно друг друга, и на главной странице они могут быть представлены в виде дерева коллекций.
- Выставка – это совокупность предварительно отобранных библиографических записей и элементы дизайна, в котором они представляются пользователю.
Оценивая поставленные задачи и возможности дальнейшего использования ОМЕКА, мы пришли к выводу, что для разрабатываемого проекта наиболее подходит режим выставки по каждому учёному с возможностью включения туда его трудов и работ о нём. Кроме этого читателям доступны такие средства навигации как временная лента, в которой отражаются годы создания работ, географическое распределение работ по местам их создания (Рис. 5) и возможности комментирования каждой записи.
Рис. 3. Пример описания коллекции
Рис. 4. Географическое распределение работ по местам их создания
Понравившиеся записи пользователи могут отметить средствами огромного количества социальных сетей, список которых настраивается дополнительно и/или отправить по почте.
Одно из наиболее полезных и интересных свойств ОМЕКИ – возможность организации коллективных работ по распознаванию текста. Для этого, кстати, также, как и для полнотекстового поиска используется MediaWiki, которая устанавливается на том же сервере, что и ОМЕКА и хранит все изменения распознанного текста. Для каждой страницы хранимой книги можно назначить отдельный процесс распознавания. На экран одновременно выводиться изображение и предоставляется окно текстового редактора для ввода (редактирования) текста (Рис. 5).
Рис. 5. Пример распознавания страницы книги
В любой момент можно посмотреть, кто внёс последние изменения в текст и при случае вернуть изменения назад.
Для ввода информации в ЭБ предусмотрены следующие методы:
- Заполнение форм в формате Dublin Core. Этот метод довольно стандартный, но следует обратить внимание на интересную возможность: при заполнении ряда полей можно автоматически обратиться в нормативную базу библиотек Конгресса США для подсказки стандартной формулировки предметной рубрики, наименования места, языка и т.п.
- Импорт библиографических записей в формате Dublin Core. Следует отметить, что для импорта нужно представить данные в структуре CSV. Это не обычная практика и нам оказалось проще самим написать конвертер из Dublin Core в CSV, чем искать готовый.
- Получение данных по протоколу OAI-PMH. ОМЕКА может работать как OAI-PMH –Харвестер и как OAI-PMH-Провайдер. Метаданные нашей электронной библиотеки можно получить по адресуhttp://195.74.82.67/omekaPortal/oai-pmh-repository/request.
Одной из важных задач, которая ставилась перед системой – возможность обогащения наших метаданных данными из других библиотек. К сожалению, ОМЕКА такую возможность не предоставляет, но у неё есть возможность написания дополнительных плагинов на PHP. Поэтому авторами проекта был разработан дополнительный плагин, который обращается в Europeana с HTTP запросом, и во всем известное хранилище Linked Open Data – Dbpedia на языке SPARQL (текст запроса автоматически составляется на основе содержимого поля Subject). Полученные результаты записываются в библиографические записи в поле «Relation» в виде ссылок на документы в Europeana и Dbpedia (Рис. 6). Пример запроса, отправляемого в Dbpedia, приведен ниже
SELECT ?person
WHERE {
?person <http://xmlns.com/foaf/0.1/surname> ?sName.
FILTER (REGEX(STR(?sName), \”$sName\”)).
?person <http://xmlns.com/foaf/0.1/givenName> ?gName.
FILTER (REGEX(STR(?gName), \”$gName\”)). }
LIMIT 100
Результат выглядит следующим образом:
Рисунок 6. Обогащение записи ссылкой на Dbpedia
Подобным образом можно получать информацию из различных источников. Следует отметить, что несмотря на всеобщее обсуждение на международных конференциях Linked Open Data(LOD) и восторгов по поводу его применения, мы столкнулись с тем, что многие источники публикуют далеко не всю информацию по LOD, некоторые периодически отключаются без предупреждений, а в некоторых формат SPARQLзапроса требует особенного синтаксиса, который не очень просто выяснить.
В заключение можно сказать, что ОМЕКА оправдала наши ожидания. Действительно, это простая система, легкая в установке, настройке и эксплуатации. Документация достаточно подробная[6], для испытания этой системы нет необходимости ее устанавливать у себя на сервере. Можно попробовать бесплатно создать свою электронную библиотеку для экспериментов на сервере http://www.omeka.net/. У ОМЕКА нет больших возможностей по конструированию сайтов, но все необходимое для сайта электронной библиотеки присутствует. Создатели ЭБ могут вводить данные, экспортировать и импортировать их, комментировать описания и совместно редактировать плохо распознанные тексты. Они могут обогащать свою коллекцию сведениями из других источников и разделять итог своего труда со всем миром. Не обходится, конечно, и без недостатков. Так мы столкнулись c тем, что ряд готовых плагинов конфликтуют между собой, одна запись может принадлежать только к одной коллекции, большая часть плагинов, которые были сделаны для первой версии ОМЕКА, не совместимы со второй версией. То есть мы еще раз убедились, что нет в мире совершенства.
Литература:
1. Бандурина И.А. Научная мобильность как фактор профессионального развития ученого в эпоху глобализации [Электронный ресурс] / И.А. Бандурина // «Преподаватель высшей школы в ХХI веке». Юбилейная международная научно-практическая интернет-конференция. Секция «Профессионально-педагогическая культура преподавателя вуза, его компетенции и оценка эффективности педагогической деятельности» (10 ; 2013 ; Ростов на Дону). Материалы. – Режим доступа : http://www.t21.rgups.ru/sections/prof-pedag_kultura_prepod_vuza
2. Сайт проекта «Детям и о детях: издательства России сегодня»http://cat.rgdb.ru/ .
3. Леонова Ю. В., Федотов А.М., Подход к построению электронных библиотек для поддержки коллективной работы сотрудников // Труды 12 й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2010, Казань, Россия, 2010,
4. Kucsma, J., Reiss, K.,Sidman, A. Using omeka to build digital collections: The METRO case study //D-Lib Magazine Volume 16, Issue 3-4, 2010. – Режимдоступа:http://www.dlib.org/dlib/march10/kucsma/03kucsma.html
5. Allison C. Marsh, Omeka in the classroom: The challenges of teaching material culture in a digital world// Lit Linguist Computing (2013) 28 (2): 279-282 doi:10.1093/llc/fqs068.
6. Сайт ОМЕКА – http://omeka.org/
Вернуться к списку