Le TC171/SC2 de l’ISO publie la norme ISO 19005-3:2012 ou PDF/A-3

Une nouvelle révision de la norme ISO 19005 vient de voir le jour (10-2012). Cette nouvelle norme est importante puisque les travaux autour de la gamme PDF/A-X sont liés à la définition des formats de conservation à long terme.

Après la norme ISO 19005-1 également connue sous le nom de PDF/A-1x, l’ISO 19005-2 connue sous le nom de PDF/A-2, voici l’ISO 19005-3 qui sera connue sous le nom de PDF/A-3.

Du PDF/A-1 au PDF/A-3

Le PDF/A-1 (2005) s’attachait à définir un format PDF pérenne et lisible dans le temps, comportant des caractères « unicode » dans lequel le texte pouvait être recherché et exploité et comportant des méta-données standards et obligatoires. Cette version du PDF « stable » reposait sur la version 1.4 du format PDF.

Le PDF/A-2 (2011) venait compléter la première version en sa basant sur le format PDF 1.7. Le support de l’encapsulation de PDF dans un unique PDF/A-2  faisait son apparition ainsi que le support de PaDES.

Le PDF/A-3 (2012) se base également sur PDF 1.7 normalisé via l’ISO 32000-1. Il ajoute à l’ISO 19005-2,  le support de tous types de fichiers (bureautique,CAD, xml, csv, …) encapsulés dans un unique PDF/A-3 dès lors que ces fichiers encapsulés sont conformes aux parties 1 et 2 de l’ISO 19005.

Un fichier au format PDF/A-3 peut donc correspondre d’avantage à un dictionnaire de fichiers tel que définit dans l’ISO 32000-1. Bien entendu, l’incorporation de fichiers ayant des dépendances externes est interdite sauf de les encapsuler d’un manière stable tout en conservant le contenu d’origine. Les fichiers encapsulés doivent avoir un type MIME valide. La génération d’un fichier à priori simple peut rapidement devenir un casse tête  afin de préserver le contenu en respectant les contraintes liées à la stabilité dans le temps des informations encapsulées.

Un peu de technique et de gymnastique par l’exemple

Casse tête : Comment générer un fichier PDF/A-3 à partir d’un fichier bureautique de type texte (… office)  comportant une équation mathématique et une représentation graphique sous la forme d’un camembert dérivée d »une feuille de calcul d’un outil tableur ?

Recette : pour générer  un tel fichier en PDF/A-3 il faut :

  • Encapsuler le fichier bureautique texte dans le fichier PDF/A-3 via une clef de type  « AFRelationship » positionnée à « Source » et l’associer au catalogue du fichier PDF/A-3. La valeur « Source » permet de spécifier que le fichier encapsulé représente les données (le contenu) d’origine.
  • Générer une version « MathML » de l’équation mathématique dans le fichier PDF/A-3 via une clef de type « AFRelationship » positionnée à « Supplement » et l’associer en utilisant un « XObject »  de type « Form ». Le mot clef  « Supplement » permet de définir que l’objet correspond à une représentation supplémentaire plus lisible par rapport à la source d’origine.
  • Encapsuler le fichier « feuille de calcul »   dans le fichier PDF/A-3 via une clef de type  « AFRelationship » positionnée à « Source » et l’associer avec le « XObject » de type « Form » ou l’objet Image représentant le camembert.
  • Encapsuler un fichier CSV  via une clef de type  « AFRelationship » positionnée à « Data » et l’associer avec le « XObject » de type « Form » ou l’objet Image représentant le camembert. Le mot clef « Data » permet de spécifier que l’objet CSV devra être utilisé pour permettre une représentation visuelle en lieu et place de la feuille de calcul qui est dans un format spécifique.
Ainsi, le fichier PDF/A-3 comporte non seulement les données d’origine mais également des objets dérivés et réputés pérennes pour représenter des informations encapsulées dans le fichier d’origine.

 PDF/A-3 : le format multi-usage

Avec ces 3 révisions, l’ISO 19005-X permet de :

– De définir un format de fichier qui préserve l’apparence visuelle statique des documents électroniques au fil du temps,

– d’établir un cadre pour l’enregistrement des métadonnées liés aux documents électroniques.

– d’établir un cadre pour définir une structure logique des documents électroniques multi-formats