1 Цифровые коллекции библиотечного фонда
1.1 Понятие и сущность цифровых коллекций РФ
Понятие «цифровая коллекция», иначе «электронная библиотека» появилась в зарубежных публикациях в XX веке, а именно, в середине 80-х годов [1]. Начало информатизации библиотек и процесса автоматизации библиотечных технологий отмечено в промежутке 1970-1980-х годов. Процесс закончился созданием интегрированных систем автоматизации библиотек, а начался с библиотечных каталогов. Создание электронного каталога библиотеки - одно из самых главных достижений этого периода, при этом произошли важные изменения в процессе поиска документов. Множество библиотекарей стали воспринимать электронную библиотеку скептически, из-за того, что традиционные фонды окажутся невостребованными. Предполагалось, что традиционная библиотека превратится в полностью автоматизированную электронную систему [2].
В рамках данного исследования электронная библиотека рассматривается как информационная система, обеспечивающая обработку, хранение и доступ к цифровому контенту существующих библиотечных фондов широкого круга пользователей. Формирование нового информационного пространства доступного для читателя в более широком аспекте (за счёт оцифровки коллекций, слияние технологических ресурсов, эффективного взаимодействия с читателем онлайн), чем представляли традиционные библиотеки, является главной целью создания электронных библиотек.
Для развития электронных библиотек были поставлены следующие задачи [3]:
- оцифровка бумажных коллекций;
- организация электронных резервов;
- реализация хранения произведений;
- формирование систем метаданных (создание продуманных удобных каталогов);
- доступ к информации с учётом правовой политики;
- безопасность электронной библиотеки.
Так же существуют задачи, направленные на развитие читательской среды:
- широкий доступ к документам, книгам и т.д., (расширение информационной среды для читателя, доступность и без ограничения по времени);
- создание новой технологичной среды для работы с большими объёмами данных;
- создание электронного фонда произведений, действующих только в цифровом формате, цифровых копий редких изданий, учёт и обеспечение сохранности.
Перевод в цифровую форму печатной продукции является одним из начальных этапов формирования фонда электронной библиотеки. Электронные библиотеки пополняются, как правило, за счёт архивных фондов, материалов библиотек, и музейных фондов. К объектам хранения электронных библиотек относятся тексты, изображения, карты, видео и аудио файлы и т.д.
Процесс образования цифровых библиотек имеет свои трудности технического характера. Например, электронная копия в результате обработки не всегда соответствует исходной публикации: появляются пунктуационные и орфографические ошибки в тексте, отсутствуют некоторые фрагменты изображений, деформируются таблицы. Соответственно появляется необходимость распознавания текста, для этого требуются более квалифицированные сотрудники, этот процесс занимает большое количество времени.
Помимо сложности процесса и больших временных затрат есть и другие трудности оцифровки библиотечных фондов. Удобный поиск - важный фактор популярности электронных библиотек. Но с графическим представлением книг на основе форматов JPG, TIFF, лексический поиск не может выполняться. Наиболее адаптивным способом является для читателей комбинированный (PDF, DjVu), который представляет издание в оригинальном виде и допускает лексический поиск. Конечно же и здесь есть свои недостатки: формат PDF не хранит описание смысловой структуры текста, а также некорректно отображается на экранах не большого размера.
Библиографическое описание для читателя является важной частью оцифрованного издания. Поэтому библиографическое описание очень важно предоставлять в полном виде, а не в сокращённом. Точное библиографическое описание очень важно для цитирования публикаций, в том числе диссертационных исследований и текстов научных статей.
Таким образом, электронная библиотека может решать задачи современного читателя с учетом его информационных потребностей и скорости поиска информации, а также служить цифровым фондом для хранения произведений мирового культурного наследия. Также можно предположить, что в ближайшем будущем можно ожидать дальнейшего развития технологий, приближающих форматы и методы доступа к электронным коллекциям к реальным и наиболее насущным потребностям.
1.2 Развитие электронных коллекций в мире
Создание коллекций электронных материалов с участием национальных библиотек (НБ) на сегодняшний день имеет давнюю историю, которую можно представить в виде четырех основных этапов:
1. База данных национальной библиотеки в виде отдельного электронного собрания.
2. Развитие национальной электронной библиотеки в данной стране, в которой будут присутствовать национальная библиотека и другие книжные фонды страны.
3. Создание крупнейших электронных библиотек, в результате международных проектов, выполняемых национальными библиотеками нескольких стран.
4. Возникновение мысли о создании единой мировой электронной библиотеки с появлением различных НБ.
1.1.1 Этап развития электронной библиотеки на базе НБ
На сегодняшний день база национальной библиотеки как отдельная электронной коллекция стала реальна для многих национальных библиотек. Но на пути развития электронных библиотек по сей день возникают проблемы разного характера, а именно юридические, терминологические, инженерные и логистические.
В первую очередь, нет общепринятого понятия «электронной библиотеки». Причина заключается в том, что существует множество критериев, которые надо учесть. Например, как формировалась электронная библиотека; для чего она и кто первый основал ее; отличия компьютерных сетевых и цифровых технологий и многое другое. Проблема терминологии обширна и является международной [4], в разных национальных библиотеках большинство понятий трактуется по-разному, что приводит к несоответствию.
Стоит заметить, что при развитии электронной библиотеки, а именно с увеличением электронного материала, представление о печатной публикации стало не четким, точнее, стало тяжелее определять к какой именно стране относится материал.
На сегодняшний день целью таких стран как Уэльс, Норвегия, Канада, Нидерланды стала оцифровка всех государственных печатных публикаций, не защищенных авторским правом. Сотрудничество с Google часто ускоряет работу по оцифровке [5]. Google Books опубликовали в Интернете более 10 миллионов книг, что побудило многие НБ к масштабной оцифровке своих коллекций [6]. Но есть некоторые исследователи, которые утверждают, что оцифровка библиотечного фонда устарела с появлением Google Books и Amazon. Безусловно в процессе развития электронных библиотек появляется проблема авторского права. К примеру, существующие законы об авторском праве создали препятствие дальнейшему развитию национальной библиотеки Нидерландов, после того, как они потратили на оцифровку материалов огромную сумму [7].
Отдельные национальные библиотеки имеют разные подходы к созданию электронной библиотеки, все зависит от специалистов, возможностей и многих других критериев, поэтому читатель не всегда может понять по какой причине какой-либо материал появляется в электронном формате. Для этого на сайте или же в самой электронной библиотеке, было бы целесообразно опубликовать принципы формирования коллекций НБ. Библиотека конгресса США, показывает довольно интересный пример. Оцифрованный материал делится на 5 основных групп: редкие документы, которые непригодны к замене; уникальные раритеты; публикации для межбиблиотечного обмена; материалы, которые выдаются в читальный зал без ограничений; документы, подверженные риску при длительном хранении [8].
Другой проблемой можно назвать объединение электронных документов. Публикации, находящейся в режиме онлайн, редактируются, обновляются, а также удаляются в хаотичном порядке. Опыт крупнейших национальных библиотек мира (США, Великобритания, Франция) показал ряд трудноразрешимых задач, связанных с архивированием и сбором данных. Если не затрагивать вопрос об авторских правах, то можно сказать, что процесс оцифровки довольно дорогостоящий, количество полученных материалов неимоверно огромно. Цифровые материалы не так безопасны, как кажется, из-за стремительного обновления программного обеспечения, а также быстрого устаревания оборудования [9].
Действительно, основная цель оцифровки коллекций - не только предоставить пользователям доступ к текстам через Интернет, но и создать рациональную поисковую платформу. Но для того, чтобы каждое слово было доступно для поиска, вам необходимо преобразовать текст с помощью оптического распознавания (OCR). Конечно, полностью избежать ошибок в тексте не удастся, и специально обученному сотруднику придется уделить этому много сил и времени [10].
Согласно исследованию, проведенному Конференцией директоров европейских национальных библиотек (CENL), к 2006 году 39 национальных библиотек в Европе оцифровали 83 миллиона обычных страниц. При этом 77% этой суммы было оцифровано в Национальной библиотеке Испании (40,6 миллиона страниц, в основном газеты) и Национальной библиотеке Франции (24,1 миллиона). Далее следуют: Британская библиотека (3,2 миллиона), Национальная библиотека Австрии (3,2 миллиона) и Национальная библиотека Чешской Республики (2,7 миллиона); НБ из других стран показали менее значимые результаты. Для сравнения результатов был отправлен запрос в Национальную библиотеку Южной Кореи в Сеуле, результат превзошел ожидания, оцифрованного материала оказалось 93 миллиона, что больше, чем все Национальные библиотеки Европы вместе взятые. Политика Национальной библиотеки Южной Кореи в Сеуле заключается в том, чтобы держать все в сети, и организационным центром по вопросам авторского права является сама Национальная библиотека [11]. При европейских темпах оцифровки большое количество печатных материалов окажется под угрозой, и стандарты хранения книг и рукописей далеки от приемлемого уровня (21 из 39 европейских НБ не удовлетворены этими условиями).
Потеря реальных читателей, кажется еще одной важной проблемой. Оцифровка фонда ведёт к тому, что люди начинают забывать о традиционной библиотеке. Ведь взрослые и дети сейчас скорее отдают предпочтение виртуальной среде нежели печатным источникам. Вместе с этим, уникальный материал перестает быть уникальным, потому что он уже размещен в Интернете, при этом теряется важность его прямого местонахождения. Библиотекарям так же трудно определить пользу созданных ими цифровых ресурсов. Для разрешения проблемы в НБ Нидерландов появилась идея привлечения внимания общественности к оцифровке фондов. Пользователи сами принимали активное участие в создании и использовании электронной библиотеки. По данным на 2006 год общественность привлекли только 18% европейских библиотек [12].
1.1.2 Этап разработки национальной цифровой библиотеки
В 1990-х годах начался второй этап развития электронных библиотек. Проблемы, которые присутствовали в первом этапе в большой степени, присущи и второму этапу. Если нынешняя библиотечная система не будет развиваться, то цивилизационное развитие стран и создание единого культурного пространства просто невозможно представить. Национальные проекты в области создания электронных библиотек являются важным направлением в социальной политике. Особо выделяются национальные проекты Gallica (удаленный доступ к фонду Национальной библиотеки Франции), Global Info (проект немецких электронных библиотек), E-Helvetica (проект Национальной библиотеки Швейцарии, направленный на сбор произведений швейцарских авторов. и зарубежные работы, связанные со Швейцарией), DEF (Датская электронная исследовательская библиотека), FinLib (Национальная электронная библиотека Финляндии), "Clasico Tavera" (проект Национальной библиотеки Испании), Цифровая библиотека (программа Британской библиотеки по оцифровке своих коллекций), Национальная цифровая библиотека США (электронный доступ к коллекциям Америки, хранящимся в Библиотеке Конгресса и других книжных репозиториях США), Национальная цифровая библиотека Китая и др. [13].
Не стоит забывать и о российской национальной библиотеке (НЭБ). Идея появления НЭБ [14] была выдвинута в 1990-х годах на базе электронной российской национальной библиотеке (РНБ), но из-за отсутствия финансирования идея не была реализована. Совет сотрудничества Российской государственной библиотеке (РГБ) и РНБ все-таки приняли эту идею в декабре 2004 г. Президентская библиотека им. Б. Н. Ельцина так же приняла участие, но немного позже.
Цель НЭБ заключалась в создании единого национального собрания полнотекстовых электронных документов, а также доступ ко всем коллекциям через Интернет, сохранение национального наследия страны, архивация, описание электронных документов. Впрочем, развитие НЭБ и формирование электронной библиотеки происходило посредством простого добавления отдельных коллекций. В 2012 году в рамках Федеральной целевой программы «Культура России (2012– 2018 гг.)» начался новый этап развития НЭБ. Ежегодная оцифровка должна была составлять не менее 10 % издаваемых в стране книг [15].
Сегодня НЭБ развивается как библиотечный комплекс, который имеет классифицированный фонд электронных документов и распределенный каталог, имеющий общие стандарты, протоколы и архитектуру. Автоматизированная система ресурсов включает в себя набор аппаратных и программных инструментов, которые поддерживают стабильную функциональность системы и обеспечивают быстрое пополнение электронного каталога документов, депозит и пользовательские средства, электронный каталог документов, запись, многомерный поиск и интерфейс. Интерфейс системы НЭБ представлен на рисунке 1.
Рисунок 1 – Интерфейс НЭБ
Актив НЭБ широкоуниверсальный и состоит из разнообразных электронных документов: книги, журналы, диссертации, ноты, карты и т.д. Приоритетным является включение в него документов по истории и культуре России и сопредельных территорий, по формированию российской государственности на протяжении нескольких веков, а также документы, отражающие достижения отечественной научной мысли. Если отсканированные документы полностью соответствуют международному праву и их содержание связано с историей и культурой России, зарубежные публикации также включаются в фонд НЭБ .
1.1.3 Этап создания крупных ЭБ с участием нескольких НБ, идея единой всемирной ЭБ
Идея объединения нескольких национальных электронных библиотек была реализована разными организациями и для разных направлений человеческой деятельности. Существуют разные европейские проекты, в том числе: CANDEL (контролируемый доступ к сети электронных библиотек в Европе), DECOMATE II (создание Европейской цифровой библиотеки по экономике), DIEPER (оцифрованные европейские журналы) и «Библиотека Универсалис» (включает оцифровку произведений в мировом культурном и научном наследии). Более примечательным проектом является проект «Габриэль» (Gabriel – Gateway and Bridge to Europe’s National Libraries), в котором приняли участие 38 НБ государств-членов Совета Европы, в том числе РНБ и РГБ. Идея создания такого портала возникла в 1994г. на сессии CENL в Осло. С января 1997г. он стал официальной службой CENL.
Смысл проекта Gabriel заключался в предоставлении информации о европейских национальных библиотеках. Для этого было поставлено несколько задач: портал как путеводитель по НБ Европы, поддержка сотрудничества НБ в сетевом пространстве. Важность портала была впечатляющей, он смягчал различия в возможностях между национальными библиотеками в разных странах, позволял получить понятную и в то же время значимую информацию о национальных библиотеках в Европе из одного источника, продемонстрировал пользователям уникальные документы, хранящиеся в разных странах национальных библиотек (включая виртуальные туры и выставки) [16].
Важным проектом под руководством CENL стала Европейская библиотека, созданная на базе Gabriel (The European Library, сокращенно TEL) – портал, предоставляющий доступ к ресурсам 48 НБ Европы. Переход Gabriel в TEL происходило в 2001–2004гг., с июня 2005г. Gabriel завершил свою работу. На портале TEL доступно более 200 миллионов записей, в том числе 24 миллиона страниц текстового контента. Портал управляется Королевской библиотекой Нидерландов в Гааге.
Портал TheEuropeanLibrary.org. начал своё существование в 2005 г. Сначала в него входили НБ Великобритании, Германии, Италии (Флоренции и Рима), Нидерландов, Португалии, Франции и Швейцарии. Проект TEL-ME-MOR (Modular Extension for Mediating Online Resources) в 2005– 2007гг. присоединил еще ряд НБ, Россия (в лице РНБ) начала своё участие с 2008г.
Развитие европейских библиотек не остановилось, поэтому в 2007 году был создан проект EDL (European Digital Library, Europeana). В рамках этого проекта Европейская цифровая библиотека продолжала добавлять новые НБ к TEL. EDL собрал оцифрованные материалы из библиотек, музеев и архивов и разместил весь этот контент на отдельном веб-сайте. Первая версия была доступна уже с 20 ноября 2008г. (www.europeana.eu). На начальном этапе проекта было оцифровано 2 миллиона различных культурных ценностей в Европе. К 2010 году это число достигло 10 миллионов, к 2015 году - 20 миллионов. В рамках проекта EDL был составлен план оцифровки материалов в НБ. Франция (50% оцифровано) и Великобритания (10%) внесли значительный вклад в создание Europeana [17]. На сегодняшний день Europeana это самостоятельный проект, он продолжает сотрудничество с Европейской библиотекой, которая предоставляет ей доступ к цифровым коллекциям НБ.
Всемирная цифровая библиотека (WDL – World Digital Library) - важнейший проект для всех НБ. В 2005 году Дж. Биллигтон (директор Библиотеки Конгресса США) предложил идею по созданию WDL, спонсорами были ЮНЕСКО и ИФЛА [18]. Целью этого проекта было создание объеденного и общедоступного сайта, который начал свою работу с 2009 года. Библиотека Конгресса США внесла огромный вклад профинансировав оцифровку и обучение персонала развивающихся стран, и спроектировала организационную работу технического характера Всемирной цифровой библиотеки. РГБ, РНБ и Президентская библиотека им. Б. Н. Ельцина также входят в состав WDL [19].
Стоить заметить, что на этом этапе развития электронных библиотек возникают проблемы уже не технологического характера. Человек воспринимает электронную среду по-разному, что является большой угрозой традиционной библиотеке. Оцифровка размывает различия между видами и объектами информации (фильмы, текста, памятники, картины), соответственно размывается и грань между музеями, архивами, библиотеками и другими культурными учреждениями. Важно, что библиотеки «теряются» в огромном количестве информации, ведь книги есть везде, но только в библиотеках они играют первостепенную роль [20].
1.3 Проект Enumerate – культурное наследие Европы
Проект Enumerate нацелен на создание надежной базы статистических данных о оцифровке, онлайн-доступе к культурному наследию в Европе путем достижения устойчивой трансформации в доступности, цифровом сохранении, качестве, точности и актуальности статистических данных .
Статистические данные о цифровом наследии Европы являются в лучшем случае предварительными и разрозненными. Для Европейской комиссии и многих агентств и субъектов в области культуры нет последовательной доказательной базы для принятия стратегических решений об инвестициях в цифровизацию. Первый проект Enumerate привел к значительному улучшению качества и доступности информации о цифровом наследии. В основе, перечисленной "тематической сети" лежал консорциум из 10 партнеров. Вместе они инициировали создание общеевропейского сообщества практиков для обмена статистическими данными и знаниями о прогрессе в области оцифровки. Enumerate улучшил и усовершенствовал методологию и опубликовал данные в интернете для повторного использования.
Для достижения цели предпринимаются следующие действия:
1. Развитие динамичного и устойчивого европейского сообщества практиков, объединяющее профессионалов в области статистического анализа, создания и сохранения цифрового контента и поддерживающее обмен знаниями и передовым опытом.
2. Создание, продвижение и развитие статистически надежной открытой методологии изучения оцифровки, использования, сохранения и связанных с этими затратами материалов культурного наследия.
3. Осуществление многолетней программы скоординированных обследований на основе этой методологии, включая крупномасштабный сбор последовательных статистических данных и более глубокое и аналитическое исследование деятельности европейских учреждений культурного наследия по оцифровке.
4. Создание и поддержка открытой, устойчивой платформы данных для сопоставления, анализа и продвижения использования нормализованных данных и аналитических данных из опросов.
Enumerate в настоящее время является единственным проектом, в котором изучаются усилия учреждений культурного наследия в Европе по оцифровке: собирается статистическая информация о деятельности по оцифровке, затратах, доступе и сохранении материалов цифрового наследия. Затем эти данные используются, чтобы понять прогресс, достигнутый со времени проведения предыдущих базовых опросов Enumerate проводившихся в 2011/2012, 2013/2014 и 2014/2015 годах и опроса Numeric.
Статистика представлена с минимально возможной интерпретацией. Не все поля анкеты были полностью заполнены респондентами. По возможности в анализ были включены неполные анкеты. Общее количество учреждений, ответивших на вопрос, учитывается для каждого вопроса.
В опросе 2017 года приняли участие более 2500 учреждений из 29 европейских стран, и количество действительных ответов приближается к 2000.
Как и в предыдущих отчетах Enumerate, музеи представляют большинство данных. Из-за небольшого числа респондентов в категориях аудиовизуальных и кинематографических организаций, учреждений исполнительского искусства и сохранения памятников и архивов данных, в оставшейся части этого отчета они были объединены в категорию «Другие учреждения». Для сравнения с отчетностью на европейском уровне библиотеки сохранены как отдельная категория, хотя это также относительно небольшая группа по сравнению с архивами и музеями. Респонденты, участвующие в исследовании представлены на рисунке 2.
Рисунок 2 – Типы организаций-респондентов, участвующие в исследовании
В Нидерландах подавляющее большинство институтов наследия в настоящее время управляют цифровыми коллекциями (81%), и большое количество из них также официально задокументировали политику оцифровки, например, в форме информационного плана (58%). Это касается всех как музейных, так и библиотечных и архивных организаций.
Почти все учреждения указывают, что оцифровка аналоговых коллекций и способ их представления являются ее неотъемлемой частью. Типы объектов рассматриваемые оцифровки при оценке принципов формирования цифровых коллекций, представлены на рисунке 3.
Рисунок 3 – Темы, рассматриваемые при оценке принципов формирования цифровых коллекций
Чтобы иметь возможность определять наличие конкретных цифровых источников в коллекциях наследия, для Enumerate была сделана общая классификация коллекций наследия, которая в принципе может использоваться как для аналоговых, так и для цифровых коллекций. Типы объектов, которые являются частью коллекций наследия представлены на рисунке 4.
Рисунок 4 – Типы коллекций наследия
Самая распространенная категория как в физических, так и в цифровых коллекциях – это визуальные материалы, такие как фотографии или печатные материалы. Текстовые источники встречаются почти в таком же количестве учреждений, но значительно меньше учреждений имеют цифровые текстовые источники в своих коллекциях. Аудиовизуальные источники («объекты наследия с измерением времени») появляются в коллекциях 2/3 респондентов, и большинство этих учреждений также имеют коллекции цифровых аудио и/или видео. Цифровые интерактивные источники наследия в настоящее время можно найти почти в половине учреждений.
В среднем 74% коллекций, находящихся в ведении учреждений наследия представлены с помощью баз данных (цифровых каталогов). Средний процент цифровых коллекций, которые представлены с помощью каталогов представлен на рисунке 5.
Рисунок 5 – Средний процент цифровых коллекций, доступны с помощью каталога
Среднее соотношение цифровых коллекций по сравнению с аналоговыми коллекциями составляет 35%. Это невзвешенное среднее значение, что означает, что размер коллекций не принимался во внимание. Процент небольшой коллекции составляет столько же, сколько процент гораздо большей коллекции. Невозможно дать средневзвешенное значение, потому что сами учреждения не могут указать точное соотношение между физическими и цифровыми коллекциями. Медианное значение составляет 26%, что указывает на то, что средний показатель повышен меньшинством учреждений с высоким уровнем оцифровки. Процент аналоговых коллекций наследия, которые еще не воспроизведены в цифровом виде/не нуждаются в оцифровке представлен на рисунке 6.