Формат долгосрочного хранения электронных документов

Опубликовано: 
Компьютерная математика. - 2011. - № 1

В эпоху глобализации и популяризации информационных технологий, отмеченную бескомпромиссной борьбой и конфликтами между компаниями-гигантами, правительствами разных стран и большими программистскими союзами,  утвердилась концепция о целесообразности  перехода в документообороте от доминирующих форматов файлов Microsoft Office (привычных .doc, .xls, .ppt) к новым, доступным и основанным на XML форматам. С одной стороны, формат ODF (Open Document Format) и стандарт ISO 26300 «ODF» [1] поддерживают многие компании, среди которых IBM, Google, Sun Microsystems, и большинство сообщества “open-source”. С другой стороны, ISO/IEC  29500:2008 OOXML (Office Open XML) [2], инициированный компанией Microsoft, ее партнеры и армия разработчиков одобрили как стандарт для реально действующей информационной технологии.

Эти два конкурирующих формата обеспечивают редактирование документов с быстрым отображением и легкой модификацией содержимого. Однако редактируемые (авторские) форматы несравнимы с «законченными» (издательскими) форматами, разрабатывамыми для точного отображения места расположения текста и графики на готовых страницах.

Формат PDF(PortableMobileDocument) – пример издательского формата, в основе которого лежит концепция «безбумажного офиса». Мобильность и кроссплатформность формата позволяет организовывать электронный документооборот.

Анализ форматов файлов. Документы форматов ODF и OOXML не подходят для опубликования, поскольку не гарантируют четкость соблюдения расстановок строк и страниц. Важность этих параметров в документе очевидна при публикации нормативных документов (законов, контрактов,  протоколов и актов), когда в тексте указаны ссылки на некоторую страницу и строку, на номера страниц в контенте документа. Открытые документы таких форматов разные операционные системы и приложения отображают по-разному. Заметим, что это ограничение не является следствием дефектов операционных систем или программ воспроизведения, все дело во внутренней реализации форматов.

Окончательный внешний вид документов ODF и OOXML зависит от алгоритмов форматирования (расстановка переносов, выравнивание строк, размещение сносок), уникальных для каждого программного продукта, в котором такие документы открыты. Эта причина исключает ODF и OOXML при серьезном рассмотрении как пригодных форматов для публикации государственных и коммерческих документов.  С другой стороны, формат PDF гарантирует четкость линий и страниц, но является одним из самых трудных для интерактивного редактирования документов. В реализации этого формата месторасположение каждого элемента определено на уровне защиты документа и дает уверенность в том, что ничего критического не произойдет в пределах строк, так что любой, кто знает, насколько ресурсно-затратным может быть ошибка печати, действительно ценит уровень надежности и усточивости PDF.

Основополагающий аспект PDF для целей электронного документооборота – включение механизма электронных подписей для целостности и подлинности документов. Использование старых заархивированных данных является сложной задачей. Например, созданные десять лет назад файлы в офисном пакете WordPerfect новые текстовые процессоры читать уже не способны, а хранимые рисунки были созданы в приложении, которого уже не существует. Для учреждений, задача которых – хранить в электронном виде миллионы документов, критически необходимо иметь формат, который сохраняет первоначальный вид документа, имеет хорошую документацию, не зависит от производителя и операционной системы, поддерживает поиск и является автономным, т.е. не требует дополнительных данных для просмотра документа. Формат PDF отвечает всем указанным требованиям. Стандарт ISO 32000-1 [3] описывает использование PDF в прикладных сферах, где PDF – подходящая технология для обмена электронными документами, включая интерактивные XFA формы.

В некоторые законодательных инициативах определен официальный издательский формат с позиций ошибочного мнения о том, что если ODF и OOXML основаны на языке разметки XML, то они более открыты и дееспособны, чем язык описания текстовых страниц PDF. Несомненно, XML-формат семантически богаче и может содержать огромный объем метаданных, что улучшает поиск  и навигацию по документу. Однако на практике существуют хотя бы два фактора, которые делают неуместным это теоретическое преимущество. Во-первых, распространение этой функциональности по всем государственным документам требует некоторого уровня стандартизации метаданных, достижение которого связано с временными затратами, если это вообще возможно. Во-вторых, затраты человеческого труда, необходимого на существующем технологическом уровне даже для наименьшего семантического обогащения значимых документов, далеки от возможностей государственных служб. Даже если преодолеть эти барьеры, фактом остается то, что ни ODF, ни OOXML неспособны поддерживать семантическое обогащение документов лучше, чем PDF.

Учитывая явные преимущества публикации государственных документов в формате, разработанном для этих целей, нелогично рассматривать такой вид доминирования стандартов над издательскими форматами. К счастью, подходящее подмножество PDF/A (А означает «архивный») уже имеет стандарт ISO 19005:2008, специально разработанный для долгосрочного хранения способом, допускающим воспроизводить и обрабатывать документы с целостным и предсказуемым результатом в будущем. Родное программное обеспечение PDF, надежно отображающее любой PDF/A документ, уже свободно доступно.

Перед обсуждением архивных форматов файлов определим, что архивировать и зачем. Так, для архивации адресной книги необходимо фокусироваться на данных, а не на их представлении. А для архивации исторически важных документов важно сосредоточиться на их внешнем виде вдобавок к контенту. Также важно поддержать любой контент в его первоначальном «формате», например, векторную схему плана этажа, сгенерированную посредством CAD, легче оставить в векторном формате, а не преобразовать в растр. Причем любые метаданные, комментарии или ремарки также следует включать в архивный документ.

Сообщество архивных учреждений обратилось к фирме Adobe касательно использования PDF как единственного формата для долгосрочного архивного хранения контента, содержащего текст, изображения, векторные и растровые данные. В сочетании с его предназначением для легкого создания эталонных реализаций (нынешних и будущих) без каких-либо неоднозначностей, это гарантирует, что контент и его представление «выживет». В будущем заархивированные документы будут видеть такими, какими их видел автор.

Форматы OOXML и ODF не отвечают таким требованиям, поскольку сосредоточены на текстовом контенте и метаданных и не поддерживают представление контента. Поэтому они не приемлемы даже для архивирования простых офисных документов. Эти форматы не отвечают требованиям к архивированию сканированных документов, изображений CAD, печатных публикаций и т.д. Эти форматы не разрабатывались для эталонных реализаций, что делает невозможным их использование в качестве стандартов архивации.

Традиционная архивная практика (бумага, микрофильмы, микрофиши) гарантирует долгосрочное воспроизведение, однако устарела с позиций современных информационных технологий. Непреодолима невозможность быстрой пересылки бумажного документа большого объема из одной страны в другую, а также сложность поиска архивных документов требуемой тематики в архивах, обычно территориально удаленных.

Первым шагом в реализации долгосрочного хранения было внедрение многими фирмами разных стран TIFF архивов. Этот формат гарантирует долгосрочное воспроизведение и имеет установленную структуру, его легко пересылать по всемирной сети, однако организовать поиск практически невозможно. TIFF – растровый формат и до непосредственного поиска документ необходимо сканировать и распознать текст, т.е. фактически делать двойную работу. Поэтому в дальнейшем целенаправленно перешли на формат PDF, поскольку он хранит структурированные объекты (текст, векторную графику, растровые рисунки), что позволяет организовывать эффективный поиск по всему архиву. Размер PDF файлов меньше TIFF и отличается лучшим качеством. Меньший размер PDF файлов является преимуществом при передаче файлов по сети, а метаданные файлов обеспечивают автоматическую классификацию поступающих документов. Контент страниц PDF-документов не зависит от средств их воспроизведения. При просмотре или печати документа страницы документа преобразуются в растровое представление, поэтому PDF имеет технологические преимущества средств воспроизведения перед другими форматами.

Компания Adobe Systems за последние 12 лет семь раз изменила спецификацию формата PDF, добавив множество новых и усовершенствовав старые свойства. В итоге создан новый формат для долгосрочного хранения электронных документов PDF/A, главной особенностью которого есть полная независимость и самодостаточность.

Другой формат DjVu реализует технологию сжатия изображения с потерями, разделяя документ на три обрабатываемых раздельно слоя: передний план, задний план и черно-белая маска. При этом используются алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный алгоритм сжатия ZP, алгоритм распаковки по запросу. Можно добиться максимальной степени сжатия при минимальных искажениях. DjVu-файл может содержать текстовый (OCR) слой, допускающий полнотекстовый поиск по файлу. Кроме того, DjVu-файл может иметь встроенное интерактивное оглавление и активные области – ссылки, что позволяет реализовать удобную навигацию.

Если сравнивать DjVu и PDF, то главное достоинство формата DjVu –малый размер файлов. Особенно он хорош при обработке документов, в которых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, оставленные другими предметами. Таким образом, DjVu прекрасно подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Однако каждый раз применительно к файлам в формате DjVu упоминается о сканировании реально существующих на бумаге или другом носителе документах, поскольку формат изначально создан для хранения именно отсканированных копий документов.

Немало недостатков препятствуют использованию DjVu в электронном документообороте. Во-первых, применяемое сжатие данных с потерями неприемлемо в отношение договоров, актов и других имеющих юридическую силу документов. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена документами со своими партнерами или клиентами. На большинстве корпоративных и домашних компьютеров нет программного обеспечения для просмотра таких электронных документов. В-третьих, в DjVu полностью отсутствуют средства для обеспечения защиті и конфиденциальности документов.

Форматы DjVu и PDF/А предназначены для решения разных задач, поэтому они не соперничают, а дополняют друг друга. Отметим, что в некоторых компаниях уже существуют цифровые DjVu-архивы технической и другой документации, созданные путем сканирования бумажных документов. Однако это не является основанием для выбора именно этого формата для построения электронного документооборота. Целесообразно построить современную, реально работающую систему, а уже существующие DjVu-файлы конвертировать во всемирно признанный формат PDF/А (см. рис. 1).

Стандартизация PDF/A.Сегодня нет конкурентов PDF/A, этот единственный формат документа признан ISO для целей долгосрочного архивирования [10]. Отметим, что сам по себе документ PDF/A является только составной частью для создания полноценного архивного решения. Для целей долгосрочного хранения необходимо достичь соответствия всем требованиям стандарта [11]. Формат PDF является де факто стандартом всей глобальной печатной промышленности, он поддерживался развитием коммерческих печатных инструментов в течение пятнадцати лет. Вероятно, компания Microsoft попытается создать конкурента PDF/A, как это было в случае OOXML в противовес ISO ODF, но огромная база PDF инструментов и осознание ущерба, к которому может привести наличие конкурентной технологи, сводит такую попытку к минимуму. Какой редактируемый формат использовать для создания документов, остается открытым вопросом, пока для финальных документов целесообразен  PDF/A.

Основные свойства PDF/A.Самодостаточность: все, что необходимо для обработки PDF/A файла содержится в нем как визуальный контент: текст, растровые изображения, векторная графика, цвет и шрифты. Недопустимы внешние ссылки на контент, включая аудио, видео, исполняемые файлы и Java Script.

Самодокументирование: поддержка использования метаданных. PDF/A предоставляет рекомендации по документированию таких атрибутов файлов, как метаданные идентификатора файлов, происхождения, шрифта и т.д.

Независимость от инструментов: PDF/A включает такие независимые компоненты, как цветовые профили RGB  или CMYK, таким образом, надежно обеспечивая статический внешний вид документа при обработке файла или печати, не обращая внимания на используемые программно-аппаратные средства.

Два уровня соответствия: низший уровень соответствия PDF/A-1b содержит все основные требования, необходимые для отображения внешнего вида документов. Он применим к сканированным документам и существующим PDF файлам при конвертации в PDF/A. Высший уровень PDF/A-1a требует теги, обеспечивающие основную структуру контента документа и средства поиска, повторное использование контента документа, средства предоставления доступа для людей с ограниченными возможностями. Этот высший уровень соответствует документам, создаваемым в цифровом виде, например при помощи программ MS Office, изначально создающие структуру документа.

Неограниченность: PDF/A запрещает шифрование. Это означает, что PDF/A должен быть открыт и доступен любому человеку и программному продукту, воспроизводящему файл. Идентификаторы пользователей и пароли недопустимо встраивать. Контроль доступа выполняется вне формата файла системой управления контентом или системой управления записями.

Поддержка новых и улучшенных наборов свойств: шрифтов, метаданных, прозрачности, компрессии, слоев PDF и электронных цифровых подписей. Разрешены новые варианты использования, включая поддержку коллекций и пакетов PDF/A документов, архивное хранение PDF/X и PDF/E документов, создание нового уровня соответствия для указания документов, доступных для поиска, но необязательно открытых для доступа.

Поддержка совместимости: с такими ISO-стандартами, как PDF/E и PDF/X.

Удостоверение будущей совместимости: у ведомств, использующих PDF/A-1, нет необходимости мигрировать на новый формат без потребности в использовании новой функциональности PDF/A-2.

Разработку и усовершенствование этих форматов файлов проводится под эгидой ISO, а ISO 19005-1[4] описывает оптимизированный под долгосрочное хранение документов формат PDF/A-1. Долгосрочное архивирование происходит сжатием согласно нормативным требованиям структуры PDF-файла с включением всех требуемых ресурсов (шрифты и изображения) и без использования интерактивного контента и средств написания сценариев (JavaScript). Поскольку PDF/A-1 основан на Adobe 1.4 PDF, а не на ISO 32000-1 [3], он не полностью поддерживает все свойства этого стандарта, доступны для электронных цифровых подписей, в частности отсутствуют вложенная информация об аннулировании и штемпелевании времени.  Поскольку такие свойства явно не запрещены, то нет препятствий соответствующей программе записи PDF/A-1 помещать эти расширенные свойства в файл, то нельзя ожидать того, что соответствующая программа чтения PDF/A-1 правильно их обработает. В свою очередь PDF/A-1 имеет два уровня соответствия: PDF/A-1a и PDF/A-1b. Уровень PDF/A-1b дает минимальное соответствие, т.е. обеспечение того, что извлеченный текст будет отображаться корректно. PDF/A-1a включает все требования PDF/A-1b и дополнительные требования касательно структуры документа, т.е. он дает полное соответствие стандарту ISO 19005-1 [4].

К концу 2010 года ожидается выход стандарта усовершенствованного формата PDF/A-2 (ISO 19005-2 [5]), основанного на ISO 32000-1[3] и с поддержкой ETSI TS 102 778 [6]. Стандарт ETSI TS 102 778 определяет серию профилей, описывающих использование цифровых подписей в PDF для обеспечения структуры расширенных электронных подписей для подписания электронных PDF документов. С полной поддержкой электронных подписей согласно [6], формат PDF/A-2 станет форматом файла для надежного долгосрочного архивирования подписанного в электронной форме и основанного на PDF электронного контента. Связь между стандартами PDF и PDF/A схематично показана на рис. 1. Иначе говоря, PDF/A – также подмножество PDF, однако поскольку формат PDF очень богат, для долгосрочного хранения необходимо указать ограничения, рекомендации и запрет некоторых свойств [4].

Подмножества PDF.PDF/E – предоставляет спецификации для создания, просмотра и печати документов, используемых в инженерных бизнес-процессах, включая интерактивные медиа: анимацию и 3D-графику:

·      PDF/X –спецификации для создания, просмотра и печати конечных документов, документов для печатной продукции,

·      PDF/VT –спецификации для транзакционных документов,

·      PDF/UA – универсальный доступ, улучшающий читабельность документа для людей с ограниченными возможностями,

·      PDF HealthCare –рекомендации по облегчению создания, обмена, хранения и защиты медицинской информации, включая личные данные, медицинские записи, отчеты лабораторных исследований, изображения ЭКГ, снимки рентгенографического обследования, фотографии, сканированные изображения.

Многотомный стандарт ETSI TS 102 778 содержит описания следующих профилей: профиль CMS (Cryptographic Message Syntax – синтаксис криптографический сообщений), основанный на ISO 32000-1; основной PAdES, основанный на  ISO 32000-1;  усиленный PAdES: профили PAdES-BES и PAdES-EPES; долгосрочный PAdES: профиль PAdES-LTV; PAdES для XML контента: профили для XAdES подписей.

Мировые тенденции внедрения PDF/A.В германии организация продвижения автоматизированного финансового учета на выставке DMS Expo 2009 в Штутгарде представила свое предложение по созданию стандартного процесса для электронного обмена счетами. Стандарт eBilling [8] использует PDF/A как формат документа и XML-стандарт openTrans, разработанный ассоциацией Frauenhofer Association совместно с немецкими компаниями из сектора экономики, для вкладывания в документ данных по счетам. Документ PDF/A вместе с вложенными данными по счетам формируют единую сущность, заверенную электронной подписью.

Потсдамский университет нацелен хранить свои документы в формате PDF/A. Национальная библиотека Германии предпочитает PDF/A всем другим форматам файлов, когда контент содержится в электронной форме. “Стандартный” PDF находится на втором месте по критерию популярности, следующий за ним – формат HTML.

В Швеции Национальный архив расценивает PDF/A как подходящий формат для архивирования текстовых документов. Центр LDP (Centre for Long-term Digital Preservation) рекомендует PDF/A: формат PDF/A создан, чтобы отвечать требованиям по записям при выборе формата файла, а именно находиться в своем исходном состоянии и быть укомплектованным для долгосрочного хранения; кроме основных метаданных каждого документа, можно добавлять другие метаданные, что увеличивает способность отслеживания документов и показывает их историю.

В Австрии Национальная библиотека в инструкции для поставщиков поставила условие о приеме документов только в формате PDF/A. Такое требование накладывает дополнительные условия на присылаемые файлы и нацелено на гарантию поддержки долгосрочного архивирования электронных документов. Библиотека ориентируется на стандарт ISO 19005-1:2005 “Управление документами – Формат файлов для долгосрочного хранения электронных документов – Часть 1: Использование PDF (PDF/A)“, основанный на PDF 1.4.

Федеральная палата консультантов архитекторов и инженеров Австрии выдвинула требование о соответствии общедоступных электронных документов стандарту PDF/A-1b.

В Дании , начиная с апреля 2011 года, по решению Парламента органы государственной власти обязаны использовать формат ODF, поскольку этот единственный редактируемый формат полностью удовлетворяет пяти критериям «открытости». PDF/A-1 указан для публикации нередактируемых документов.

Во Франции Генеральный директорат по модернизации государства и бюджетное министерство в начале 2009 года издали рекомендации по обработке электронных данных по стандарту ISO PDF/A для архивирования административных документов со статичным, неизменным контентом.   

В Норвегии правительство поставило условие, что вся информация, опубликованная на государственном веб-сайте, должна быть сохранена в таких общедоступных форматах документов, как HTML, PDF соответственно PDF/A или ODF. PDF/A рекомендован для всех документов с обязательным форматированием. Эта рекомендация введена 1 января 2009 года. С 1 января 2010 года  муниципальная администрация получила указание использовать открытые форматы файлов (ODF, HTML, PDF 1.4 или лучше PDF/A) при публикации информации через интернет.

Таблица 1 – Состояние принятия правительственными ведомствами разных стран документов формата PDF и PDF/A для долгосрочного хранения

Ведомства

Формат

Состояние

Администрация Национальных архивов и записей США (NARA)

PDF/A

Общепринят

Европейская комиссия(MoReq)

PDF/A

Рекомендован

Правительство Германии(SAGA v4)

PDF/A   

Рекомендован

Правительство Франции

PDF/A

Рекомендован

Правительство Дании

PDF/A

Требуемый

Национальные Архивы Швеции

PDF/A

Общепринят

Национальная библиотека Австрии

PDF/A

Рекомендован

Национальные Архивы Норвегии

PDF/A

Рекомендован

Организация по развитию автоматизированного учета

PDF/A   

Рекомендован

Бразильская федеральная законодательная власть

PDF/A

Требуемый

Суды США

PDF

Требуемый

Виктория, Австралия,архивыPublic Record Office

PDF

Требуемый

Архивный стандарт итальянского правительства

PDF

Общепринят

Национальная центральная библиотека, Тайвань

PDF

Рекомендован

 

 В Швейцарии Федеральный суд Швейцарии в проекте резолюции «Правила электронной передачи в домене административной деятельности» переходит на PDF/A. Правила приняты 1 января 2008 года и запланирована полная их реализация за последующее десятилетие [9].

Заключение. В ближайшие годы в архивах электронных документов как источниках информации для принятия важнейших управленческих решений проблемы хранения приобретут ключевое значение в методологии организации такого рода информационных ресурсов. Работы по обеспечению сохранности электронных документов можно разделить на три вида: 1) обеспечение физической сохранности и целостности файлов электронных документов; 2) обеспечение условий для считывания информации в долговременной перспективе; 3) обеспечение условий для воспроизведения электронных документов в читабельном виде. Первое условие зависит от создаваемой системы электронного документооборота, будь она основана на спецификации MoReq2, MoReq2010 или абсолютно иной. Последние два условия способен обеспечить формат PDF/A.

 

1.       ISO/IEC 26300:2006 Information technology - Open Document Format for Office Applications (Open Document) v1.0

2.       ISO/IEC 29500:2008 Information technology – Document description and processing languages - Office Open XML file formatsISO 32000

3.       ISO 32000-1:2008 Document management - Portable document format -- Part 1: PDF 1.7

4.       ISO 19005-1:2005 Document management - Electronic document file format for long-term preservation - Part 1: Use of PDF 1.4 (PDF/A-1)

5.       ISO/DIS 19005-2.2 Document management -- Electronic document file format for long-term preservation - Part 2: Use of ISO 32000-1 (PDF/A)

6.       ETSI TS 102 778:2009 Electronic Signatures and Infrastructures (ESI); PDF Advanced Electronic Signature Profiles

7.       Model Requirements for the management of electronic records. MoReq2 specification. http://ec.europa.eu/transparency/archival_policy/

8.       PDF/A archiving standard http://www.adobe.com/enterprise/standards/pdfa/

9.       Recommendations and Guidelines for PDF/A http://www.pdfa.org/doku.php?id=vorgaben:en

10.    PDF/Archive Committee http://www.aiim.org/Resources/Standards/Committees/PDFA

11.    PDF/A – worldwide collaboration to preserve electronic Documentshttp://www.aiim.org/documents/standards/PDF-A/PDF-A-ISO-Focus.pdf

Аннотация: 

Рассмотрены задачи внедрения форматов файлов для долгосрочного хранения электронных документов. Проанализированы существующие форматы файлов и аргументирована целесообразность использования формата PDF/A для архивного хранения электронных документов. Предложены основные направления работ по обеспечению последней стадии жизненного цикла документов – архивного хранения.