Après la phase de production, nous développons actuellement une nouvelle étape du projet utilisant le XML (Extensible Markup Language). Ce traitement supplémentaire des données, en surcouche de la base de données relationnelle, s’appuie sur l’application de la TEI (Text encoding Initiative) -et plus particulièrement le sous-ensemble EpiDoc (Epigraphic Documents in TEI-XML) mis au point pour la publication électronique de textes antiques en grec et en latin. La TEI est un consortium international qui a développé collectivement un standard pour la représentation numérique des textes. Il a produit des recommandations, régulièrement mises à jour, qui décrivent les méthodes et schémas d’encodage pour rendre les textes compréhensibles par les machines d’un point de vue formel, sémantique et/ou analytique. Pour plus de précisions sur cette technique d’encodage du texte voir http://www.tei-c.org et pour le sous-ensemble EpiDoc : http://sourceforge.net/p/epidoc/wiki/Home/
Une étape préparatoire au travail d’encodage à proprement parler a permis de dimensionner le projet en créant le schéma correspondant aux attentes scientifiques. Car, en effet, le balisage autorise une recherche plus étendue, plus détaillée de l’information que celle que permet une base de données relationnelle. Sa finesse, ou granularité, a été adaptée à la problématique scientifique et aux moyens humains, techniques et financiers dont dispose le projet. L’échange constant et une étroite collaboration entre spécialistes du domaine d’étude et les personnes maîtrisant la technologie adaptée sont un gage de réussite pour tous les projets qui s’inscrivent dans le contexte des Humanités Numériques. L’enrichissement de l’objet d’étude par l’application d’une technologie permet une lecture renouvelée des données et l’émergence de voies de recherches supplémentaires. Depuis plusieurs années, les épigraphistes se sont structurés à un niveau international et sont très actifs dans l’appropriation de ces nouvelles technologies. Plusieurs réalisations, en ligne, les appliquent.
Concrètement, chaque inscription du corpus est traitée dans un fichier XML dont la trame, le schéma, est définie par EpiDoc. Elle comprend dans l’en-tête (<header>) du fichier :
– Les données administratives ou métadonnées, l’historique des révisions du fichier (nature de la modification, par qui, quand…), les personnes impliquées dans le projet et leurs responsabilités.
– Les données sur le support de l’inscription : nature du support, dimensions, matériau, lieu de découverte, lieu de conservation.
Ces deux types de données peuvent être encodés de façon automatique par le biais d’un formulaire de saisie classique qui produit automatiquement les balises XML ou par un mapping lorsqu’elles sont déjà informatisées dans un système d’information.
Dans le corps (<body>) du fichier sont encodés :
– la structure, le contenu, l’apparat critique et le commentaire de l’inscription. Pour ces deux derniers éléments, l’implication du chercheur est essentielle pour l’encodage manuel car ils relèvent de l’analyse et de l’interprétation personnelle.
Pour les inscriptions de Cherchel, un premier niveau d’analyse a été défini. L’encodage porte en priorité sur l’onomastique (noms de personnes, dénomination sociale), les toponymes ainsi que les dates (durée d’une carrière militaire, âge au décès…) avec la création d’index propres. Le balisage étant une activité chronophage, nous avons privilégié le traitement de l’ensemble des inscriptions sur ces aspects particuliers afin de pouvoir questionner l’intégralité du corpus. Un deuxième niveau d’analyse, discuté ultérieurement, permettra d’aborder ou d’approfondir d’autres problématiques de recherche (aspects paléographiques, actions du lapicide…).
L’application d’EpiDoc au corpus des inscriptions de Cherchel permet d’augmenter les capacités d’exploitation scientifique en offrant de nouvelles possibilités de manipulation, de questionnement et de visualisation des données. Elle favorise également l’échange et le partage de données au sein d’une communauté par l’utilisation d’un vocabulaire commun, d’un même schéma bien qu’il soit adapté aux nécessités de chaque projet. L’alignement sur des référentiels, des vocabulaires externes, comme geonames (http://www.geonames.org/) ou pleiades (http://pleiades.stoa.org/places) en ce qui concerne les mentions de lieux, et sur le vocabulaire proposé par EAGLE sur le type de support, de matériau…accroît l’interopérabilité entre projets. Enfin, cette structuration souple de l’information indépendante des outils logiciels utilisés permet d’exploiter les données dans différents supports. En effet, l’application de feuilles de style aux fichiers XML permet de chercher, d’extraire et de redistribuer les balises choisies du texte dans la mise en page souhaitée, sur des supports variés (publication traditionnelle, site internet avec publication électronique, web de données…).