В конце января в Фундаментальной библиотеке ИНИОН РАН в Москве произошел пожар, в результате было утрачено до трети библиотечных фондов. Это событие подняло волну дискуссий о значимости оцифровки библиотечных и архивных фондов.
Вопросы сохранности и доступности культурного наследия и раньше выносились на уровень правительства и профильных министерств. Однако большинство обсуждений носили очень общий характер. Их участники зачастую не понимают, что это означает — оцифровать целую библиотеку. У нас в ABBYY есть реальный опыт участия в подобных проектах: мы принимали активное участие в оцифровке отдельных российских и зарубежных библиотек и были технологическими партнерами масштабных зарубежных проектов по сохранению культурного наследия — Gutenberg и META-e.
Я постараюсь прояснить некоторые сугубо технические и ценностные — во всех смыслах — аспекты оцифровки библиотек и архивов, которые раскроют реальный масштаб и сложность проблемы.
Зачем нужна оцифровка
Первая задача — это сохранить книги, отсканировав их. Конечно, старинные фолианты, библиографические редкости невозможно полноценно сохранить в виде цифровой копии, она не передаст фактуры бумаги, художественной ценности иллюстраций, переливов света на пергаменте и т. п. Но в остальных случаях книга — это, в первую очередь, источник знаний, информации.
Вторая задача — сделать книги доступными для широкого круга читателей. А для этого нужно не только отсканировать текст, но и распознать его. Потому что людям, как правило, нужны не фотографии страниц, а именно сама информация, которую при оцифровке можно скачать в нужном электронном формате, причем в существенно меньшем объеме, нежели в виде сканов.
В российских библиотеках огромнейшие и ценнейшие архивы, и процесс по их оцифровке уже начался. Например, РГБ уже отсканировала около миллиона изданий и документов (всего в ней хранится около 45,5 млн единиц). Темпы медленные, но начало положено.
Как оцифровывают книги
Перед сканированием нужно определиться, что именно будем оцифровывать. Если выяснится, что какие-то книги находятся в плохом состоянии и при сканировании могут просто рассыпаться, нужно позаботиться об этом и по возможности восстановить, отреставрировать их.
Если мы сканируем или фотографируем старые и ветхие книги, даже отреставрированные, этот этап требует специальных условий работы и особого оборудования — нужно использовать «волшебные» аппараты с V-образным ложем для книг и системой перелистывания страниц, в том числе с помощью воздуха. Стоимость таких сканеров может превышать €100 000.
Конечно, не все документы требуют столь бережного и дорогостоящего обращения.
Большинство документов XIX-XXI веков можно сканировать более привычным способом. Но в любом случае все оборудование для сканирования книг медленное, потому что документы не протягиваются через сканер, а перелистываются автоматически или вручную страница за страницей. Так что сканирование книг не идет в сравнение со сканированием пачки договоров. Это очень трудоемкий и дорогостоящий процесс.
Сканирование закончено, мы получили изображения страниц в виде папки с pdf-файлами, а чаще всего — с фотографиями. Вместо трехсотстраничной книги у нас триста довольно тяжелых изображений, из которых нельзя скопировать текст, не говоря уже о поиске информации. На каких серверах хранить все эти фото, кто готов скачать гигабайты картинок? Скорее всего, такая электронная книга будет лежать на диске в электронном архиве так же, как оригинал прежде лежал на полке. Библиотека потратит много денег на профессиональный сканер, но отсканированные книги прочтут единицы. В то время как задача библиотеки сделать книгу доступной: дать читателю возможность найти нужный документ, открыть его, скачать на свой планшет, смартфон или читать прямо с сайта. А значит, необходимо распознать отсканированные тексты с помощью специальных программ, после чего отдать их на проверку верификаторам.
Проверка результатов распознавания — это довольно длительная и трудоемкая работа, которую, впрочем, можно выполнить с помощью краудсорсинга, доверив ее широкой общественности. Так, например, при оцифровке 90-томника Льва Толстого силами 3000 волонтеров нам за полтора года удалось оцифровать более 45 000 страниц.
Как создать общегосударственную электронную библиотеку
Программа оцифровки библиотечных и архивных фондов в масштабах страны требует системного подхода и проработанного плана.
Например, как решить, какие материалы оцифровывать в первую очередь? С одной стороны, правильно переводить в электронный вид то, что читают и берут чаще всего, — наиболее популярные книги и документы. С другой — понятно, что сохранять нужно уникальные и ценные книги, существующие в единственном экземпляре.
Как снизить риск дублирования работы в разных библиотеках — ведь оцифровать книгу недешево?
Мне кажется, что на первом этапе подобного проекта нужно создать единый каталог или реестр всех объектов хранения. И реализовывать это лучше «снизу». Например, так: библиотеки и архивы сформулируют свои потребности в оцифровке, на основе которых будет собран некоторый пул заявок. После выверки, решения вопросов с дублированием и систематизацией наименований этот пул и станет нашим каталогом.
На этом этапе, кстати, можно учесть и уже проделанную библиотеками работу: они ведь в первую очередь сканируют свои каталоги, чтобы читатели могли удаленно ознакомиться со списком книг. Поэтому некоторые части нашего единого каталога уже готовы.
Затем на основе единого каталога можно будет разработать подробный план по оцифровке, который должен быть цельным и единым для всех государственных архивов и библиотек.
Результаты создания общегосударственной электронной библиотеки сложно переоценить. Обычные читатели, не выходя из дома, смогут прочитать книги, которые раньше просто не были им доступны. А, например, исследователь сможет найти на интернет-сайте библиотеки или даже просто в поисковике интересующий его документ, прочитать его, провести изыскания, походить по сноскам, просмотреть источники, связанные с документом, и при необходимости узнать, где находится оригинал.
Сколько потребуется денег
Не так давно статс-секретарь Министерства культуры Григорий Ивлиев сообщил, что в 2015 году на оцифровку библиотечных фондов будет направлено более 100 млн рублей. Сумма внушительная, но сколько это будет в книгах?
Если вы когда-нибудь сталкивались с потоковым сканированием, то знаете, насколько это просто. В мощный сканер кладется пачка документов, сканирование и распознавание происходят почти полностью автоматически, а вы в итоге получаете полностью оцифрованный офисный архив. Дальше его нужно еще верифицировать, то есть сверить распознанные данные, это можно делать автоматически или вручную. В любом случае, при этом способе стоимость оцифровки составит несколько рублей за страницу.
Книги — тем более редкие и старые экземпляры — так сканировать нельзя, мы говорили об этом выше. Из-за более сложных сканеров, особенностей распознавания (диковинных шрифтов, сложных фонов и пр.) и более кропотливой работы людей цена оцифровки страницы возрастает до десятков и даже сотен рублей.
Чтобы не усложнять расчеты, давайте возьмем сумму 50 рублей — столько в среднем может стоить работа по оцифровке одной страницы условного исторического библиотечного фонда. Предположим, что среднестатистическая книга в библиотеке содержит 500 страниц. На что хватит 100 млн рублей? Примерно на 4000 книг средней сложности. Повторюсь, речь идет о «сферических книгах в вакууме», то есть для каждой библиотеки это будет своя сумма. Но примерный порядок цифр, думаю, понятен.
Для ясности скажу, что в пострадавшей от пожара Фундаментальной библиотеке ИНИОН РАН, по официальным данным, содержится 14,7 млн книг, из которых в хранилище на Нахимовском проспекте находилось 10,2 млн. Отличие, как видим, на три порядка.
Оцифровка в других странах
Один из самых известных зарубежных проектов по оцифровке книг и документов — это Gutenberg, запущенный в 1971 году. В его рамках волонтеры оцифровывают и сохраняют в текстовом формате различные произведения мировой литературы, находящиеся в свободном доступе. Сейчас на сайте проекта можно бесплатно скачать 45 000 книг во всех популярных форматах. И собственный счетчик проекта показывает 4,5 млн скачиваний только за последний месяц.
Также в Европе с 2007 года существует исследовательский проект IMPACT. Он был создан Евросоюзом, чтобы сохранить европейское культурное наследие и открыть читателям широкий доступ к историческим текстам. В проекте принимают участие более десятка национальных библиотек европейских стран, исследовательские институты и технологические партнеры, в том числе ABBYY.
Еще один проект по оцифровке старинных книг, заслуживающий упоминания, — META-e. Он также был задуман и осуществлен странами ЕС. В рамках этого проекта деньги были выделены на разработку системы компьютерных программ для распознавания любых европейских текстов, напечатанных в период XVI–XIX веков с использованием почти не встречающихся ныне готических шрифтов.
Пока европейские библиотеки оцифрованы гораздо в большей степени, чем российские.
Например, на сайте Национальной библиотеки Франции, которая обладает сопоставимым с ИНИОНом фондом, доступны более 3 млн книг и документов. Будем надеяться, что и наши библиотеки в ближайшем будущем смогут похвастать такими цифрами.