SlideShare une entreprise Scribd logo
Avranches – 30 Août 2016
Pierre-Yves Buard – Pôle Document Numérique, MRSH Caen
Université de Caen Normandie
Standards et outils XML
École d’été Biblissima
Contexte
Recherche et patrimoine écrit
Émergence des humanités numériques
✤ frontières poreuses entre conservation, communication, diffusion, valorisation, édition,
analyse…
✤ tension croissante entre masse documentaire mise à disposition et outils d’appropriation,
d’exploitation
✤ diversification sensible du lectorat potentiel…
✤ document numérique comme outils et comme objet d’étude
Recherche et patrimoine écrit
Une source écrite = un ensemble de données variées
✤ qui peuvent être considérées et exploitées dans des configurations à géométrie variable
✤ témoin utilisé dans une édition de texte, élément d’une base de données notices descriptives
(fonds, catalogue thématique…) etc.
→ contraintes et enjeux :
✤ disposer d’informations exploitables et récupérables,
✤ produire de nouvelles informations à leur tour exploitables et récupérables
Liste des noms de poissons
Marqueur de citation
Texte de la citation
Notion de document (1)
Sources anciennes,document et texte
Notion de document (2)
Sources anciennes,document et texte
✤ Notion floue et difficile à définir précisément
✤ Document = structure logique + structure physique (Roger T. Pédauque)
Standards et outils XML
Métadonnées (1)
Définition
✤ données visant à définir ou à caractériser d’autres données pour les référencer et les
manipuler
✤ « Les métadonnées sont des informations structurées qui décrivent, expliquent,
localisent ou encore facilitent la découverte, l’utilisation ou la gestion d’une ressource
d’information. »
NISO (National Information Standards Organization)

Understanding metadata, 2004, ISBN: 1-880124-62-9
[http://www.niso.org/standards/resources/UnderstandingMetadata.pdf]
✤ décrire les ressources numériques
✤ facilité l’interprétation des données :
✤ définition des contenus et leurs relations
✤ ajouter des connaissances à des éléments (annotations, informations
complémentaires)
✤ automatiser les manipulations des données
Métadonnées (2)
Objectifs
✤ Métadonnées descriptives à vocation catalographique (ou permettant le référencement,
la découverte ou l’identification de ressources)
✤ Métadonnées structurelles (explicitation des relations entre les composants de la
ressource ; liens entre ces composants)
✤ Métadonnées administratives (gestion des droits et des accès…)
Métadonnées (3)
Typologies
EncapsuléesExternes Englobantes (1) Englobantes (2)
lien
description description description
document document document
< d e s c . > d o c u m e n t < d e s c . >
document document document
d o c u m e n t d o c u m e n t
< d e s c . > d o c u m e n t
document<desc.>document
document document document
document document document
document document document
document document document
<desc.> document <desc.>
document document document
document document <desc.>
document <desc.> document
document document document
document <desc.> document
<desc.> document document
document document document
document
Métadonnées (4)
Modèles d’inclusion
✤ contexte technique : XML et technologies associées
✤ nécessité de respecter les standards (TEI, EAD, ONIX, DC, etc.)
✤ respect des cultures métiers (chercheurs, archivistes, documentalistes, éditeurs, etc.)
Standards et métiers
Formats, normes et outils
Encodage des caractères
ASCII et ISO-8859-1
✤ 128 ou 256 caractères
✤ Très dépendant des polices
✤ Échange de fichiers compliqué
Formats, normes et outils
Encodage des caractères
Unicode
✤ Plus de 100 000 caractères
✤ Indépendant des polices
✤ Compatible avec l’ASCII et l’ISO-8859-1
Formats, normes et outils
Encodage des caractères
eXtensible Markup Language
XML
✤ créé en 1998, s’impose aujourd’hui comme le format d’échange et de stockage dans
l’édition
✤ principe : étiquetage systématique des éléments constitutifs d’un texte avec des balises
de début (<debut>) et de fin d’élément (</fin>)
✤ évolution du SGML (Standard Generalized Markup Language – ISO 8879 dont découle
aussi le HTML (HyperText Markup Language)) pour être plus adapté au web
✤ objectifs : dépasser les limites du HTML et reprendre les principes du SGML en les
simplifiant
✤ métalangage (permet la création de nouveaux langages)
✤ structures arborescentes (imbrication des éléments)
✤ format ouvert (pas de logiciel propriétaire)
✤ souplesse des structures (choix des éléments)
XML
Règles d’écriture
✤ le document commence par la déclaration XML
✤ il contient un élément racine unique qui contient tous les autres
✤ toute balise ouverte doit être fermée
✤ les balises uniques sont de la forme <balise/>
✤ pas de chevauchement :
✤ <message><exclamation>oh oh!</exclamation></message>
et pas
✤ <message><exclamation>oh oh!</message></exclamation>
✤ les valeurs d’attributs sont renseignées entre quotes :
✤ <note n=“12“>Le texte de la note</note>
XML
Notion de conformité
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<livre>
<titre>Mon titre</titre>
<auteur>Nom de l’auteur</auteur>
<chapitre><titre>Titre du chapitre</titre>
<para>Premier paragraphe</para>
<para>Second paragraphe</para>...
</chapitre>...
</livre>
Exemple de fichier XML bien formé (ou conforme)
XML
Grammaire de référence
✤ objectif : définir des vocabulaires communs dans les communautés
✤ ensemble des balises utilisables pour un type ou une classe de document (thèses, CV,
documentation technique, humanités, etc.)
✤ au moyen d’une DTD (Document Type Definition) ou d’un schéma XML
XML
Grammaire de référence
<!ELEMENT book (title, author*, chapter+)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT author (firstname?, surname)>
<!ELEMENT firstname (#PCDATA)>
<!ELEMENT surname (#PCDATA)>
<!ELEMENT chapter (title?, para+)>
<!ELEMENT para (#PCDATA)>
Exemple de DTD : book.dtd
XML
Notion de validité
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE book SYSTEM "book.dtd">
<book><title>Annuaire 1995</title>
<author>
<surname>La Poste</surname>
</author>
<chapter><title>Paris</title>
<para>ABEL Antoine 82 23 44 12</para>
<para>ABEL Pierre 82 67 23 12</para>...
</chapter>
</book>
Exemple de fichier XML valide et bien formé
XML
Notion de chemin :XPath
Text Encoding Initiative
TEI
✤ Objectifs : description de l’ensemble des textes de sciences humaines
✤ créé en 1987 par
✤ Association for Computers and the Humanities
✤ Association for Computational Linguistics
✤ Association for Literary and Linguistic Computing
✤ Version actuelle : P5
✤ Évolution constante (Workgroups, Special Interest Groups, etc.)
✤ Maintenu par le consortium : http://www.tei-c.org
TEI
✤ ensemble de recommandations pour la description et la structuration des textes
✤ définition des catégories de textes à plusieurs niveaux (préliminaires, corps, post-
liminaires mais aussi divisions, paragraphes, notes, citations, etc.)
✤ peut aboutir à production de grammaires de référence (DTD ou schémas) pouvant
prendre en compte :
✤ en-tête du document
✤ structure de texte par défaut
✤ ensembles de balises pour la prose, la poésie, le théâtre
✤ transcription des textes oraux
✤ dictionnaires et terminologie
✤ citations, appareil critique
✤ tables, formules, graphiques
✤ liens, relations, etc.
TEI
Exemple (1)
ACT I - SCENE I
Enter Barnardo and Francisco, two Sentinels, at several doors
BARN : Who's there?
FRAN : Nay, answer me. Stand and unfold yourself.
BARN : Long live the King!
FRAN : Barnardo?
BARN : He.
FRAN : You come most carefully upon your hour.
BARN : Tis now struck twelve. Get thee to bed, Francisco.
<div type="Act" n="I"><head>ACT I</head>
<div type="Scene" n="1"><head>SCENE I</head>
<stage rend="italic">Enter Barnardo and Francisco,
two Sentinels, at several doors</stage>
<sp><speaker>Barn</speaker><l part=Y>Who's there?</l></sp>
<sp><speaker>Fran</speaker>
<l>Nay, answer me. Stand and unfold yourself.</l></sp>
<sp><speaker>Barn</speaker>
<l part="i">Long live the King!</l></sp>
<sp><speaker>Fran</speaker><l part="m">Barnardo?</l></sp>
<sp><speaker>Barn</speaker><l part="f">He.</l></sp>
<sp><speaker>Fran</speaker>
<l>You come most carefully upon your hour.</l></sp>
<sp><speaker>Barn</speaker>
<l>Tis now struck twelve.
Get thee to bed,Francisco.</l></sp>
... </div> ........</div>
TEI
Exemple (2)
✤ En-tête : <teiHeader>
✤ informations sur le texte (similaires à celles que l’on trouve sur une page de titre
imprimée)
✤ Texte : <text>
✤ Préliminaires : <front>
✤ Corps : <body>
✤ Post-liminaires : <back>
TEI
✤ En-tête (<teiHeader>) structuré
✤ Description bibliographique du fichier électronique(<fileDesc>) avec trois zones
distinctes
✤ Titre, auteur du fichier (<titleStmt>)
✤ Éditeur, lieu d’édition, date d’édition du fichier (<publicationStmt>)
✤ Références bibliographiques des sources dont est dérivé le fichier (<sourceDesc>)
✤ Description des rapports entre un texte électronique et la ou les sources dont il
dérive (<encodingDesc>)
✤ Description du projet (<projectDesc>)
✤ Description des principes éditoriaux (<editorialDecl>)
✤ Description quantitative du balisage (<tagsDecl>)
✤ Description des révisions (<revisionDesc>)
✤ Historique, nature et auteurs des révisions successives du document.
TEI
✤ préliminaires (<front>) : page de titre, auteur et titre du document, avant-propos,
préface, dédicace, etc.
✤ corps (<body>) : introduction, conclusion, parties, chapitres, section, sous-sections, etc.
✤ “post-liminaires” (<back>) : annexes, glossaires, index, bibliographie, etc.
✤ éléments flottants : note, citation, liste, etc.
TEI
✤ les éléments sont regroupés en ensembles thématiques documentés

(base, théâtre, description de sources primaires, dictionnaires, etc.)
✤ le consortium propose des outils de fabrication de grammaire

(Roma et précédemment pizza chief) et de documentation spécifique
✤ divers outils de conversion de fichiers XML TEI

(production de pages web, de PDFs, etc.)
TEI
TEI
Roma
TEI
Exemple
✤ TEI comme point de rencontre entre les besoins de la recherche

et les impératifs éditoriaux
✤ structuration scientifique / structuration éditoriale
✤ subdivisions structurelles et distinctions formelles propres à l’activité éditoriale
traditionnelle :
✤ préliminaires : dédicace, exergue, avertissement, sommaire, préface, présentation,
titre…
✤ matière : introduction, titres intérieurs, intertitres, appels de notes, notes, figures,
tableaux…
✤ compléments : épilogue, postface, bibliographie, index, table des matières…
TEI
… et édition
EncodedArchival Description
✤ Standard international : Encoded Archival Description (EAD)
➡ Objectifs : traitement, restitution des hiérarchies et des mécanismes d’héritage des
instruments de recherche
➡ Créé en 1993 à l’Université de Californie, Berkeley
➡ Version actuelle : EAD 3 (EAD 2002 encore beaucoup utilisé)
➡ Maintenu par la bibliothèque du congrès

et la société des archivistes américains :

http://www.loc.gov/ead/
EAD
EAD
EAD
EAD
Production et exploitation
Outils
✤ Production
✤ Traitement de texte (styles et feuilles de styles)
✤ OpenOffice (traitement de texte et surtout outil de conversion)
✤ XSLT (Extended Stylesheet Language Transformation)
✤ Éditeur XML (XMLmind XML Editor, Oxygen, XMetal, Morphon, Millefeuille)
✤ Logiciel de PAO (Indesign, Xpress, FrameMaker)
✤ Diffusion / exploitation / exploration
✤ Langage de scripts (applescript, javascript)
✤ PHP, XSLT, CSS
✤ xquery, eXist, BaseX, Philologic, etc.
Outils
XSLT (1)
✤ Extended Stylesheet Language Transformation
✤ c’est un fichier XML (il en respecte les principes)
✤ ne contient pas de données
✤ transforme un arbre XML en autre chose (un autre arbre XML, un fichier , etc.) :
✤ passage d’un document XML TEI à un document XHTML
✤ passage d’un document XML TEI à un autre XML TEI (interopérabilité)
XSLT
[…]
<xsl:template match="list">
<ul><xsl:apply-templates/></ul>
</xsl:template>
<xsl:template match="item">
<li><xsl:apply-templates/></li>
</xsl:template>
[…]
XML TEI
[…]
<list>
<item>item 1</item>
<item>item 2</item>
<item>item 3</item>
</list>
[…]
XHTML
[…]
<ul>
<li>item 1</li>
<li>item 2</li>
<li>item 3</li>
</ul>
[…]
Outils
XSLT (2)
Outils
XSLT (3)
Outils
Édition XML (1)
Outils
Édition XML (2)
Outils
Édition XML (3)
✤ ensemble de fichiers :
✤ fichier de configuration -> centralise l’ensemble des fonctionnalités
✤ schémas -> contrôle de la structure au cours de la saisie
✤ cascading style sheet -> vues sur le document (5 vues maximum/document)
✤ commandes -> automatisation d’opération, application de transformations,
indexation, etc.
✤ feuilles de transformation XSLT -> production de formes de diffusion, modifications
générales, etc.
✤ modèle -> pour débuter la saisie directement en XML
Outils
Édition XML (4)
Chaîne éditoriale
Édition
© Alain Pierrot
Chaîne éditoriale
Principes (1)
✤ intégration du XML pour l’ensemble des productions
✤ solution adaptée aux grandes fonctions de l’éditeur scientifique (diffusion,
production de formes référençables, traduction d’une structure logique en une forme
intelligible adaptée à un (ou des) support(s) donné(s)
✤ rationalisation des pratiques autour du document numérique
✤ séparation fond / forme
✤ notion centrale de document structuré pérenne et archivable (indépendant des
logiciels)
Chaîne éditoriale
Principes (2)
✤ préserver la qualité éditoriale quel que soit le support de diffusion : culture du
secrétariat d’édition
✤ un seul flux de production pour tous les supports (Single Source Publishing)
✤ une seule méthode de travail (conservation des outils habituels du secrétaire d’édition)
Chaîne éditoriale
Principes (3) – Chicago manual of styles
http://www.chicagomanualofstyle.org/home.html
✤ niveau de balisage suffisant pour
l’édition :

versification, titres, paragraphes, etc.
✤ peu de profondeur (divisions, puis
deux niveaux maximum : paragraphes
et caractères)
Chaîne éditoriale
Niveaux de balisage (1) – Balisage éditorial
✤ exemple de structure complexe
✤ segments, indications bibliographiques,
plusieurs types de notes, etc.
✤ structure aussi profonde que nécessaire
Chaîne éditoriale
Niveaux de balisage (2) – Balisage scientifique
Contexte de travail
exportation, conversion
PDF
papier
éditions en ligne
ePub
inventaires/
archives
autorités
locales, viaf, crossref
lieux, personnes, œuvres
XML
(TEI)
XML
(EAD)
bases de données recherche
fiches catalographiques
textes auteurs
connexion
transformations
Exemples et études de cas
Exemples et études de cas
Études de cas (1) – Hortus Sanitatis
✤ traité latin d’ichtyologie (fin XVe siècle)
✤ compilation de sources

(peu de passages de l’auteur)
✤ identification des sources de chaque
segment de citation
✤ édition bilingue : latin/français
✤ édition papier et en ligne
✤ accès aux images des éditions
✤ interopérabilité avec Sourcencyme
(Atelier Vincent de Beauvais, Nancy,
ANR 2007)
Exemples et études de cas
Études de cas (1) – Hortus Sanitatis
Exemples et études de cas
Études de cas (1) – Hortus Sanitatis
Exemples et études de cas
Études de cas (2) – Nummus
✤ Monnaies en contexte archéologique
✤ 12000 monnaies
✤ fiches XML EAD
Exemples et études de cas
Études de cas (2) – Nummus

Contenu connexe

Tendances (20)

PDF
Informatique documentaire - Cours Licence pro bib 2013
Sylvain Machefert
 
PDF
Introduction à l'informatique documentaire - 2011
Sylvain Machefert
 
PDF
Introduction à l'informatique documentaire
Sylvain Machefert
 
PPT
Calames - presentation à l'ecole des chartes
Y. Nicolas
 
PPT
Calames. Editer, rechercher, exposer des métadonnées EAD
Y. Nicolas
 
PPTX
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
Romain Cambien
 
PPT
Livres, périodiques, thèses et manuscrits en réseau
Y. Nicolas
 
PPT
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Desconnets Jean-Christophe
 
PPT
Medialille evolutions catalogage_avril2014_web-donnees
nonue12
 
ODP
Sibille jacobson thesaurus
AssociationAF
 
PDF
Créer un moteur de recherche avec des logiciels libres
Robert Viseur
 
PPTX
La recherche documentaire sur moteurs de recherche et bases de données
Latour Marie
 
PPTX
introduction à MongoDB
Abdoulaye Dieng
 
PPT
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Gautier Poupeau
 
PPTX
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Luc Bellier
 
PPT
EBD 2013 le document, document numérique
Luc Bellier
 
PPT
2013 bibnum ebd
Luc Bellier
 
PPT
Découverte du SPARQL endpoint de HAL
Gautier Poupeau
 
PDF
JABES 2017 - L'histoire d'un document dans la plate-forme ISTEX
ABES
 
PPTX
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Luc Bellier
 
Informatique documentaire - Cours Licence pro bib 2013
Sylvain Machefert
 
Introduction à l'informatique documentaire - 2011
Sylvain Machefert
 
Introduction à l'informatique documentaire
Sylvain Machefert
 
Calames - presentation à l'ecole des chartes
Y. Nicolas
 
Calames. Editer, rechercher, exposer des métadonnées EAD
Y. Nicolas
 
SGBDR vs NoSQL, Différences et Uses Cases. Focus sur ArangoDB
Romain Cambien
 
Livres, périodiques, thèses et manuscrits en réseau
Y. Nicolas
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Desconnets Jean-Christophe
 
Medialille evolutions catalogage_avril2014_web-donnees
nonue12
 
Sibille jacobson thesaurus
AssociationAF
 
Créer un moteur de recherche avec des logiciels libres
Robert Viseur
 
La recherche documentaire sur moteurs de recherche et bases de données
Latour Marie
 
introduction à MongoDB
Abdoulaye Dieng
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Gautier Poupeau
 
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Luc Bellier
 
EBD 2013 le document, document numérique
Luc Bellier
 
2013 bibnum ebd
Luc Bellier
 
Découverte du SPARQL endpoint de HAL
Gautier Poupeau
 
JABES 2017 - L'histoire d'un document dans la plate-forme ISTEX
ABES
 
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013
Luc Bellier
 

En vedette (8)

PDF
Fédérer la recherche sur le patrimoine écrit du Moyen Âge et de la Renaissanc...
Equipex Biblissima
 
PDF
Éléments de catalogage des livres anciens
Equipex Biblissima
 
PPTX
Data in the center of the Information System
Gautier Poupeau
 
PDF
Exploration et visualisation de fichiers XML avec BaseX
Emmanuelle Morlock
 
PPT
Information numérique : défintions et enjeux
Gautier Poupeau
 
PDF
Ce que Biblissima fait à l'histoire des bibliothèques en Occident
Equipex Biblissima
 
PDF
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Equipex Biblissima
 
PDF
Biblissima, un équipement de données pour l’historien des textes anciens
Equipex Biblissima
 
Fédérer la recherche sur le patrimoine écrit du Moyen Âge et de la Renaissanc...
Equipex Biblissima
 
Éléments de catalogage des livres anciens
Equipex Biblissima
 
Data in the center of the Information System
Gautier Poupeau
 
Exploration et visualisation de fichiers XML avec BaseX
Emmanuelle Morlock
 
Information numérique : défintions et enjeux
Gautier Poupeau
 
Ce que Biblissima fait à l'histoire des bibliothèques en Occident
Equipex Biblissima
 
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Equipex Biblissima
 
Biblissima, un équipement de données pour l’historien des textes anciens
Equipex Biblissima
 
Publicité

Similaire à Standards et outils XML (20)

PDF
Adbs2012presentation 120527125034-phpapp02
ABES
 
PDF
Cours de C++, en français, 2002 - Cours 3.4
Laurent BUNIET
 
PDF
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
OpenEdition
 
PDF
Les éléments d'indexation dans la DTD-EAD
Danis Habib
 
PPT
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Phonothèque MMSH
 
PPT
Introduction à XML
Saïd Radhouani
 
PPT
Metadonnees Introduction
jbcomte
 
PDF
Adbs2012 presentation
Fleury Christine
 
PPTX
Recherche d'information en Sciences exactes et appliquees
Manuel Durand Barthez
 
PPT
introduction to css, introduction to css
KaledKaled8
 
PPTX
coursxml_1_xml .pptx
asmaherchan
 
DOCX
Big data
Youssef CHOUNI
 
PPT
Xml un panorama
m100grech
 
PPTX
Traitement documentaire - Indexation
Clément Dussarps
 
PPT
Les feuilles de styles comment creer des documents en utilisant css.ppt
ssuser1fde9c
 
ODP
Présentation de Claire Sibille et Michel Jacobson
AssociationAF
 
PPTX
Ardrasoft ba-ba des métadonnées
Philippe Lebas
 
PDF
Support de cours technologie et application m.youssfi
ENSET, Université Hassan II Casablanca
 
PPT
Documentation électronique. Ecole doctorale, droit
carovalerie37
 
PPT
Droit documentation electronique edshs
carovalerie37
 
Adbs2012presentation 120527125034-phpapp02
ABES
 
Cours de C++, en français, 2002 - Cours 3.4
Laurent BUNIET
 
N. Dufournaud : XML TEI un outil méthodologique pour la recherche en SHS
OpenEdition
 
Les éléments d'indexation dans la DTD-EAD
Danis Habib
 
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Phonothèque MMSH
 
Introduction à XML
Saïd Radhouani
 
Metadonnees Introduction
jbcomte
 
Adbs2012 presentation
Fleury Christine
 
Recherche d'information en Sciences exactes et appliquees
Manuel Durand Barthez
 
introduction to css, introduction to css
KaledKaled8
 
coursxml_1_xml .pptx
asmaherchan
 
Big data
Youssef CHOUNI
 
Xml un panorama
m100grech
 
Traitement documentaire - Indexation
Clément Dussarps
 
Les feuilles de styles comment creer des documents en utilisant css.ppt
ssuser1fde9c
 
Présentation de Claire Sibille et Michel Jacobson
AssociationAF
 
Ardrasoft ba-ba des métadonnées
Philippe Lebas
 
Support de cours technologie et application m.youssfi
ENSET, Université Hassan II Casablanca
 
Documentation électronique. Ecole doctorale, droit
carovalerie37
 
Droit documentation electronique edshs
carovalerie37
 
Publicité

Plus de Equipex Biblissima (20)

PPTX
Da Biblissima a Biblissima+ : per un osservatorio delle culture scritte
Equipex Biblissima
 
PDF
eScriptorium: An Open Source Platform for Historical Document Analysis
Equipex Biblissima
 
PDF
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Equipex Biblissima
 
PDF
Appliquer les techniques d'apprentissage profond pour détecter les enluminure...
Equipex Biblissima
 
PDF
Représentations du chant du Moyen Âge dans les images IIIF
Equipex Biblissima
 
PDF
Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...
Equipex Biblissima
 
PDF
Mise en œuvre de IIIF pour la reconnaissance automatique de documents
Equipex Biblissima
 
PDF
Nakala et IIIF
Equipex Biblissima
 
PDF
Actualités et perspectives de IIIF
Equipex Biblissima
 
PDF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Equipex Biblissima
 
PDF
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Equipex Biblissima
 
PDF
IIIF360: A Service to Support and Promote IIIF in France
Equipex Biblissima
 
PDF
The Biblissima Authority File of Geographical Names
Equipex Biblissima
 
PDF
Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...
Equipex Biblissima
 
PDF
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Equipex Biblissima
 
PDF
Biblissima: Connecting Manuscripts Collections
Equipex Biblissima
 
PDF
IIIF et Biblissima
Equipex Biblissima
 
PDF
A la recherche du patrimoine écrit avec le portail Biblissima
Equipex Biblissima
 
PDF
Browse and Visualize Manuscripts Illuminations with IIIF
Equipex Biblissima
 
PDF
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Equipex Biblissima
 
Da Biblissima a Biblissima+ : per un osservatorio delle culture scritte
Equipex Biblissima
 
eScriptorium: An Open Source Platform for Historical Document Analysis
Equipex Biblissima
 
Annotate (E-ReColNat) : annotation rapide d’images et de vidéos en sciences n...
Equipex Biblissima
 
Appliquer les techniques d'apprentissage profond pour détecter les enluminure...
Equipex Biblissima
 
Représentations du chant du Moyen Âge dans les images IIIF
Equipex Biblissima
 
Réflexions et explorations croisées autour de IIIF, Omeka-s et NumaHOP à la B...
Equipex Biblissima
 
Mise en œuvre de IIIF pour la reconnaissance automatique de documents
Equipex Biblissima
 
Nakala et IIIF
Equipex Biblissima
 
Actualités et perspectives de IIIF
Equipex Biblissima
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Equipex Biblissima
 
Digital Manuscripts Without Borders: A Discovery Platform of Manuscripts and ...
Equipex Biblissima
 
IIIF360: A Service to Support and Promote IIIF in France
Equipex Biblissima
 
The Biblissima Authority File of Geographical Names
Equipex Biblissima
 
Les référentiels Biblissima : épine dorsale du portail Biblissima et de IIIF-...
Equipex Biblissima
 
Introduction aux protocoles IIIF. Formation Enssib 23.01.2019 (Régis Robineau)
Equipex Biblissima
 
Biblissima: Connecting Manuscripts Collections
Equipex Biblissima
 
IIIF et Biblissima
Equipex Biblissima
 
A la recherche du patrimoine écrit avec le portail Biblissima
Equipex Biblissima
 
Browse and Visualize Manuscripts Illuminations with IIIF
Equipex Biblissima
 
Les descripteurs des bases iconographiques Mandragore (BnF) et Initiale (IRHT...
Equipex Biblissima
 

Dernier (20)

PDF
Phillips Science of Dental Materials Kenneth J. Anusavice
ywvxqav3495
 
PPT
PRESENTATION Paramètres d'urgence en Biochimie.ppt
ayaprodige
 
PDF
Je pige enfin ! L'anglais - Marie-Virginie Speller.pdf
BelhassenJebali
 
PDF
REGALO. Listas de registro semanal horizontales.pdf
PatriciaRamirez320281
 
PDF
MEDIA LAW AND ETHICS 4th Edition Roy Moore & Michael Murray
mfypkavt8064
 
PDF
Histoire de la Grande Kabylie XIXe XXe siècles Alain Mahé
gcatton368
 
PDF
The Employment Legacy of the 2012 Olympic Games A Case Study of East London N...
kbtotovgg3330
 
PDF
7.01.21-Biologie-de-lallergie-L.GARNIER.pdf
Sophie523294
 
PDF
Methods in Helio and Asteroseismology Frank P. Pijpers
upekjcxv870
 
PDF
Elgar Companion to Neo Schumpeterian Economics Horst Hanusch
halonmlc263
 
PDF
Quantitative Financial Risk Management Theory And Practice 1st Edition Galari...
voortsoyka3v
 
PDF
Facing the Hard Truths about Energy 1st Edition National Petroleum Council
svymrojaij2696
 
PDF
Garbage Citizenship Vital Infrastructures of Labor in Dakar Senegal Rosalind ...
ygjkbgtbb3863
 
PDF
Water Power and Identity The Cultural Politics of Water in the Andes 1st Edit...
ccrvldjlq6787
 
PDF
Model selection and model averaging 1st Edition Gerda Claeskens
mblowtxej8697
 
PDF
Personnel Psychology 1st Edition Melinde Coetzee
mrbdaltm3949
 
PDF
Pathways to pregnancy parturition 2nd Edition P. L. Senger
zredhhc4830
 
PDF
Xenopus Protocols Cell Biology and Signal Transduction 1st Edition Steven L. ...
upvnhuszbx136
 
PPTX
Learning Diph thongs for elem (ow aw ou au).pptx
MarivicValdez2
 
PDF
Transformational Governance How Boards Achieve Extraordinary Change 1st Editi...
ferlogrouxqb
 
Phillips Science of Dental Materials Kenneth J. Anusavice
ywvxqav3495
 
PRESENTATION Paramètres d'urgence en Biochimie.ppt
ayaprodige
 
Je pige enfin ! L'anglais - Marie-Virginie Speller.pdf
BelhassenJebali
 
REGALO. Listas de registro semanal horizontales.pdf
PatriciaRamirez320281
 
MEDIA LAW AND ETHICS 4th Edition Roy Moore & Michael Murray
mfypkavt8064
 
Histoire de la Grande Kabylie XIXe XXe siècles Alain Mahé
gcatton368
 
The Employment Legacy of the 2012 Olympic Games A Case Study of East London N...
kbtotovgg3330
 
7.01.21-Biologie-de-lallergie-L.GARNIER.pdf
Sophie523294
 
Methods in Helio and Asteroseismology Frank P. Pijpers
upekjcxv870
 
Elgar Companion to Neo Schumpeterian Economics Horst Hanusch
halonmlc263
 
Quantitative Financial Risk Management Theory And Practice 1st Edition Galari...
voortsoyka3v
 
Facing the Hard Truths about Energy 1st Edition National Petroleum Council
svymrojaij2696
 
Garbage Citizenship Vital Infrastructures of Labor in Dakar Senegal Rosalind ...
ygjkbgtbb3863
 
Water Power and Identity The Cultural Politics of Water in the Andes 1st Edit...
ccrvldjlq6787
 
Model selection and model averaging 1st Edition Gerda Claeskens
mblowtxej8697
 
Personnel Psychology 1st Edition Melinde Coetzee
mrbdaltm3949
 
Pathways to pregnancy parturition 2nd Edition P. L. Senger
zredhhc4830
 
Xenopus Protocols Cell Biology and Signal Transduction 1st Edition Steven L. ...
upvnhuszbx136
 
Learning Diph thongs for elem (ow aw ou au).pptx
MarivicValdez2
 
Transformational Governance How Boards Achieve Extraordinary Change 1st Editi...
ferlogrouxqb
 

Standards et outils XML

  • 1. Avranches – 30 Août 2016 Pierre-Yves Buard – Pôle Document Numérique, MRSH Caen Université de Caen Normandie Standards et outils XML École d’été Biblissima
  • 3. Recherche et patrimoine écrit Émergence des humanités numériques ✤ frontières poreuses entre conservation, communication, diffusion, valorisation, édition, analyse… ✤ tension croissante entre masse documentaire mise à disposition et outils d’appropriation, d’exploitation ✤ diversification sensible du lectorat potentiel… ✤ document numérique comme outils et comme objet d’étude
  • 4. Recherche et patrimoine écrit Une source écrite = un ensemble de données variées ✤ qui peuvent être considérées et exploitées dans des configurations à géométrie variable ✤ témoin utilisé dans une édition de texte, élément d’une base de données notices descriptives (fonds, catalogue thématique…) etc. → contraintes et enjeux : ✤ disposer d’informations exploitables et récupérables, ✤ produire de nouvelles informations à leur tour exploitables et récupérables
  • 5. Liste des noms de poissons Marqueur de citation Texte de la citation
  • 6. Notion de document (1) Sources anciennes,document et texte
  • 7. Notion de document (2) Sources anciennes,document et texte ✤ Notion floue et difficile à définir précisément ✤ Document = structure logique + structure physique (Roger T. Pédauque)
  • 9. Métadonnées (1) Définition ✤ données visant à définir ou à caractériser d’autres données pour les référencer et les manipuler ✤ « Les métadonnées sont des informations structurées qui décrivent, expliquent, localisent ou encore facilitent la découverte, l’utilisation ou la gestion d’une ressource d’information. » NISO (National Information Standards Organization)
 Understanding metadata, 2004, ISBN: 1-880124-62-9 [http://www.niso.org/standards/resources/UnderstandingMetadata.pdf]
  • 10. ✤ décrire les ressources numériques ✤ facilité l’interprétation des données : ✤ définition des contenus et leurs relations ✤ ajouter des connaissances à des éléments (annotations, informations complémentaires) ✤ automatiser les manipulations des données Métadonnées (2) Objectifs
  • 11. ✤ Métadonnées descriptives à vocation catalographique (ou permettant le référencement, la découverte ou l’identification de ressources) ✤ Métadonnées structurelles (explicitation des relations entre les composants de la ressource ; liens entre ces composants) ✤ Métadonnées administratives (gestion des droits et des accès…) Métadonnées (3) Typologies
  • 12. EncapsuléesExternes Englobantes (1) Englobantes (2) lien description description description document document document < d e s c . > d o c u m e n t < d e s c . > document document document d o c u m e n t d o c u m e n t < d e s c . > d o c u m e n t document<desc.>document document document document document document document document document document document document document <desc.> document <desc.> document document document document document <desc.> document <desc.> document document document document document <desc.> document <desc.> document document document document document document Métadonnées (4) Modèles d’inclusion
  • 13. ✤ contexte technique : XML et technologies associées ✤ nécessité de respecter les standards (TEI, EAD, ONIX, DC, etc.) ✤ respect des cultures métiers (chercheurs, archivistes, documentalistes, éditeurs, etc.) Standards et métiers
  • 14. Formats, normes et outils Encodage des caractères ASCII et ISO-8859-1 ✤ 128 ou 256 caractères ✤ Très dépendant des polices ✤ Échange de fichiers compliqué
  • 15. Formats, normes et outils Encodage des caractères Unicode ✤ Plus de 100 000 caractères ✤ Indépendant des polices ✤ Compatible avec l’ASCII et l’ISO-8859-1
  • 16. Formats, normes et outils Encodage des caractères
  • 18. XML ✤ créé en 1998, s’impose aujourd’hui comme le format d’échange et de stockage dans l’édition ✤ principe : étiquetage systématique des éléments constitutifs d’un texte avec des balises de début (<debut>) et de fin d’élément (</fin>) ✤ évolution du SGML (Standard Generalized Markup Language – ISO 8879 dont découle aussi le HTML (HyperText Markup Language)) pour être plus adapté au web ✤ objectifs : dépasser les limites du HTML et reprendre les principes du SGML en les simplifiant ✤ métalangage (permet la création de nouveaux langages) ✤ structures arborescentes (imbrication des éléments) ✤ format ouvert (pas de logiciel propriétaire) ✤ souplesse des structures (choix des éléments)
  • 19. XML Règles d’écriture ✤ le document commence par la déclaration XML ✤ il contient un élément racine unique qui contient tous les autres ✤ toute balise ouverte doit être fermée ✤ les balises uniques sont de la forme <balise/> ✤ pas de chevauchement : ✤ <message><exclamation>oh oh!</exclamation></message> et pas ✤ <message><exclamation>oh oh!</message></exclamation> ✤ les valeurs d’attributs sont renseignées entre quotes : ✤ <note n=“12“>Le texte de la note</note>
  • 20. XML Notion de conformité <?xml version="1.0" encoding="UTF-8" standalone="yes"?> <livre> <titre>Mon titre</titre> <auteur>Nom de l’auteur</auteur> <chapitre><titre>Titre du chapitre</titre> <para>Premier paragraphe</para> <para>Second paragraphe</para>... </chapitre>... </livre> Exemple de fichier XML bien formé (ou conforme)
  • 21. XML Grammaire de référence ✤ objectif : définir des vocabulaires communs dans les communautés ✤ ensemble des balises utilisables pour un type ou une classe de document (thèses, CV, documentation technique, humanités, etc.) ✤ au moyen d’une DTD (Document Type Definition) ou d’un schéma XML
  • 22. XML Grammaire de référence <!ELEMENT book (title, author*, chapter+)> <!ELEMENT title (#PCDATA)> <!ELEMENT author (firstname?, surname)> <!ELEMENT firstname (#PCDATA)> <!ELEMENT surname (#PCDATA)> <!ELEMENT chapter (title?, para+)> <!ELEMENT para (#PCDATA)> Exemple de DTD : book.dtd
  • 23. XML Notion de validité <?xml version="1.0" encoding="UTF-8" standalone="no"?> <!DOCTYPE book SYSTEM "book.dtd"> <book><title>Annuaire 1995</title> <author> <surname>La Poste</surname> </author> <chapter><title>Paris</title> <para>ABEL Antoine 82 23 44 12</para> <para>ABEL Pierre 82 67 23 12</para>... </chapter> </book> Exemple de fichier XML valide et bien formé
  • 26. TEI ✤ Objectifs : description de l’ensemble des textes de sciences humaines ✤ créé en 1987 par ✤ Association for Computers and the Humanities ✤ Association for Computational Linguistics ✤ Association for Literary and Linguistic Computing ✤ Version actuelle : P5 ✤ Évolution constante (Workgroups, Special Interest Groups, etc.) ✤ Maintenu par le consortium : http://www.tei-c.org
  • 27. TEI ✤ ensemble de recommandations pour la description et la structuration des textes ✤ définition des catégories de textes à plusieurs niveaux (préliminaires, corps, post- liminaires mais aussi divisions, paragraphes, notes, citations, etc.) ✤ peut aboutir à production de grammaires de référence (DTD ou schémas) pouvant prendre en compte : ✤ en-tête du document ✤ structure de texte par défaut ✤ ensembles de balises pour la prose, la poésie, le théâtre ✤ transcription des textes oraux ✤ dictionnaires et terminologie ✤ citations, appareil critique ✤ tables, formules, graphiques ✤ liens, relations, etc.
  • 28. TEI Exemple (1) ACT I - SCENE I Enter Barnardo and Francisco, two Sentinels, at several doors BARN : Who's there? FRAN : Nay, answer me. Stand and unfold yourself. BARN : Long live the King! FRAN : Barnardo? BARN : He. FRAN : You come most carefully upon your hour. BARN : Tis now struck twelve. Get thee to bed, Francisco.
  • 29. <div type="Act" n="I"><head>ACT I</head> <div type="Scene" n="1"><head>SCENE I</head> <stage rend="italic">Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn</speaker><l part=Y>Who's there?</l></sp> <sp><speaker>Fran</speaker> <l>Nay, answer me. Stand and unfold yourself.</l></sp> <sp><speaker>Barn</speaker> <l part="i">Long live the King!</l></sp> <sp><speaker>Fran</speaker><l part="m">Barnardo?</l></sp> <sp><speaker>Barn</speaker><l part="f">He.</l></sp> <sp><speaker>Fran</speaker> <l>You come most carefully upon your hour.</l></sp> <sp><speaker>Barn</speaker> <l>Tis now struck twelve. Get thee to bed,Francisco.</l></sp> ... </div> ........</div> TEI Exemple (2)
  • 30. ✤ En-tête : <teiHeader> ✤ informations sur le texte (similaires à celles que l’on trouve sur une page de titre imprimée) ✤ Texte : <text> ✤ Préliminaires : <front> ✤ Corps : <body> ✤ Post-liminaires : <back> TEI
  • 31. ✤ En-tête (<teiHeader>) structuré ✤ Description bibliographique du fichier électronique(<fileDesc>) avec trois zones distinctes ✤ Titre, auteur du fichier (<titleStmt>) ✤ Éditeur, lieu d’édition, date d’édition du fichier (<publicationStmt>) ✤ Références bibliographiques des sources dont est dérivé le fichier (<sourceDesc>) ✤ Description des rapports entre un texte électronique et la ou les sources dont il dérive (<encodingDesc>) ✤ Description du projet (<projectDesc>) ✤ Description des principes éditoriaux (<editorialDecl>) ✤ Description quantitative du balisage (<tagsDecl>) ✤ Description des révisions (<revisionDesc>) ✤ Historique, nature et auteurs des révisions successives du document. TEI
  • 32. ✤ préliminaires (<front>) : page de titre, auteur et titre du document, avant-propos, préface, dédicace, etc. ✤ corps (<body>) : introduction, conclusion, parties, chapitres, section, sous-sections, etc. ✤ “post-liminaires” (<back>) : annexes, glossaires, index, bibliographie, etc. ✤ éléments flottants : note, citation, liste, etc. TEI
  • 33. ✤ les éléments sont regroupés en ensembles thématiques documentés
 (base, théâtre, description de sources primaires, dictionnaires, etc.) ✤ le consortium propose des outils de fabrication de grammaire
 (Roma et précédemment pizza chief) et de documentation spécifique ✤ divers outils de conversion de fichiers XML TEI
 (production de pages web, de PDFs, etc.) TEI
  • 36. ✤ TEI comme point de rencontre entre les besoins de la recherche
 et les impératifs éditoriaux ✤ structuration scientifique / structuration éditoriale ✤ subdivisions structurelles et distinctions formelles propres à l’activité éditoriale traditionnelle : ✤ préliminaires : dédicace, exergue, avertissement, sommaire, préface, présentation, titre… ✤ matière : introduction, titres intérieurs, intertitres, appels de notes, notes, figures, tableaux… ✤ compléments : épilogue, postface, bibliographie, index, table des matières… TEI … et édition
  • 38. ✤ Standard international : Encoded Archival Description (EAD) ➡ Objectifs : traitement, restitution des hiérarchies et des mécanismes d’héritage des instruments de recherche ➡ Créé en 1993 à l’Université de Californie, Berkeley ➡ Version actuelle : EAD 3 (EAD 2002 encore beaucoup utilisé) ➡ Maintenu par la bibliothèque du congrès
 et la société des archivistes américains :
 http://www.loc.gov/ead/ EAD
  • 39. EAD
  • 40. EAD
  • 41. EAD
  • 43. Outils ✤ Production ✤ Traitement de texte (styles et feuilles de styles) ✤ OpenOffice (traitement de texte et surtout outil de conversion) ✤ XSLT (Extended Stylesheet Language Transformation) ✤ Éditeur XML (XMLmind XML Editor, Oxygen, XMetal, Morphon, Millefeuille) ✤ Logiciel de PAO (Indesign, Xpress, FrameMaker) ✤ Diffusion / exploitation / exploration ✤ Langage de scripts (applescript, javascript) ✤ PHP, XSLT, CSS ✤ xquery, eXist, BaseX, Philologic, etc.
  • 44. Outils XSLT (1) ✤ Extended Stylesheet Language Transformation ✤ c’est un fichier XML (il en respecte les principes) ✤ ne contient pas de données ✤ transforme un arbre XML en autre chose (un autre arbre XML, un fichier , etc.) : ✤ passage d’un document XML TEI à un document XHTML ✤ passage d’un document XML TEI à un autre XML TEI (interopérabilité)
  • 45. XSLT […] <xsl:template match="list"> <ul><xsl:apply-templates/></ul> </xsl:template> <xsl:template match="item"> <li><xsl:apply-templates/></li> </xsl:template> […] XML TEI […] <list> <item>item 1</item> <item>item 2</item> <item>item 3</item> </list> […] XHTML […] <ul> <li>item 1</li> <li>item 2</li> <li>item 3</li> </ul> […] Outils XSLT (2)
  • 50. ✤ ensemble de fichiers : ✤ fichier de configuration -> centralise l’ensemble des fonctionnalités ✤ schémas -> contrôle de la structure au cours de la saisie ✤ cascading style sheet -> vues sur le document (5 vues maximum/document) ✤ commandes -> automatisation d’opération, application de transformations, indexation, etc. ✤ feuilles de transformation XSLT -> production de formes de diffusion, modifications générales, etc. ✤ modèle -> pour débuter la saisie directement en XML Outils Édition XML (4)
  • 53. Chaîne éditoriale Principes (1) ✤ intégration du XML pour l’ensemble des productions ✤ solution adaptée aux grandes fonctions de l’éditeur scientifique (diffusion, production de formes référençables, traduction d’une structure logique en une forme intelligible adaptée à un (ou des) support(s) donné(s) ✤ rationalisation des pratiques autour du document numérique ✤ séparation fond / forme ✤ notion centrale de document structuré pérenne et archivable (indépendant des logiciels)
  • 54. Chaîne éditoriale Principes (2) ✤ préserver la qualité éditoriale quel que soit le support de diffusion : culture du secrétariat d’édition ✤ un seul flux de production pour tous les supports (Single Source Publishing) ✤ une seule méthode de travail (conservation des outils habituels du secrétaire d’édition)
  • 55. Chaîne éditoriale Principes (3) – Chicago manual of styles http://www.chicagomanualofstyle.org/home.html
  • 56. ✤ niveau de balisage suffisant pour l’édition :
 versification, titres, paragraphes, etc. ✤ peu de profondeur (divisions, puis deux niveaux maximum : paragraphes et caractères) Chaîne éditoriale Niveaux de balisage (1) – Balisage éditorial
  • 57. ✤ exemple de structure complexe ✤ segments, indications bibliographiques, plusieurs types de notes, etc. ✤ structure aussi profonde que nécessaire Chaîne éditoriale Niveaux de balisage (2) – Balisage scientifique
  • 59. exportation, conversion PDF papier éditions en ligne ePub inventaires/ archives autorités locales, viaf, crossref lieux, personnes, œuvres XML (TEI) XML (EAD) bases de données recherche fiches catalographiques textes auteurs connexion transformations
  • 61. Exemples et études de cas Études de cas (1) – Hortus Sanitatis ✤ traité latin d’ichtyologie (fin XVe siècle) ✤ compilation de sources
 (peu de passages de l’auteur) ✤ identification des sources de chaque segment de citation ✤ édition bilingue : latin/français ✤ édition papier et en ligne ✤ accès aux images des éditions ✤ interopérabilité avec Sourcencyme (Atelier Vincent de Beauvais, Nancy, ANR 2007)
  • 62. Exemples et études de cas Études de cas (1) – Hortus Sanitatis
  • 63. Exemples et études de cas Études de cas (1) – Hortus Sanitatis
  • 64. Exemples et études de cas Études de cas (2) – Nummus ✤ Monnaies en contexte archéologique ✤ 12000 monnaies ✤ fiches XML EAD
  • 65. Exemples et études de cas Études de cas (2) – Nummus