Kevyt johdatus EpiDoc-merkintäkieleen epigraafikoille

2017-03-14

EpiDoc yhdistää perinteiset ja täysin uudet piirtokirjoitusten editointimenetelmät ja -tavat.

Epigrafinen merkintätapa

Viimeisen vuosisadan ajan piirtokirjoitustutkijat ovat saaneet painia sen kanssa, kuinka esittää tutkimuksen kohteena oleviin kirjoitettuihin teksteihin liittyvä ei-kielellinen tieto. Aina 1800-luvun lopulle saakka kustantajien saatettiin edellyttää painavan piirtokirjoitustekstistä näköispainoksen. Tämä tapa on kuitenkin jäänyt miltei tyystin käytöstä, eivätkä kustantajat ole osoittaneet vastaavaa halukkuutta liittää julkaisuihin täydellistä valokuvakokoelmaa, joka sisältäisi jokaisen julkaisussa käsitellyn piirtokirjoitustekstin. Merkintätapa, joka luotiin kertomaan puuttuvasta tekstistä, lyhenteistä jne., on tullut enemmän tai vähemmän yleisesti hyväksytyksi 1930-luvulta alkaen ja on jossakin määrin päällekkäinen papyrologiassa ja paleografiassa käytetyn kanssa. Jokainen piirtokirjoitustutkija joutuu käsittelemään ongelmia, jotka syntyvät siirrettäessä merkintätapaan liittyviä seikkoja sähköiseen muotoon, esimerkiksi etsimään fontit, joihin voi liittää alapisteen. Useimmat meistä ovat kuitenkin nykyään sopeutuneet näihin uusiin rajoitteisiin.

Kokonaisten piirtokirjoituseditioiden verkkojulkaisemista on hidastanut vaikeudet merkintätavan esittämisessä internet-ympäristössä. Lisäksi ongelmana on ollut kreikan kirjaimiston tuottaminen yhdenmukaisesti ja ominaisuutensa säilyttäen. Sen sijaan on syntynyt huomattavan runsaita hakukokoelmia, joista mainittakoon:

Katso myös: Mukauttaminen (EpiDoc -yhteensopivuus).

Teknologian kehittyminen 1900-luvun kuluessa ja sen kulloinkin tarjoamat menetelmät ovat vaikuttaneet ratkaisevasti yllämainittuihin muutoksiin. EpiDocin tavoite on hyödyntää uutta ja monimuotoista teknologiaa pyrittäessä piirtokirjoitustutkimuksen perinteisiin tavoitteisiin. Monet aiemmin mainituista seikoista ovat vaatineet taistelua olemassa olevien teknisten standardien kanssa esimerkiksi laadittaessa tekstiä painojulkaisuihin, jotta voisimme sisällyttää niihin mahdollisimman monta edellyttämäämme asiaa. Jo jonkin aikaa on tullut aina vain hankalammaksi saada perinteiset kustantajat taipumaan vaatimustasoomme yksityiskohtaisen taustatiedon liittämisessä piirtokirjoitusjulkaisuihin - paitsi kohtuuttoman korkein kustannuksin. Samalla odotukset siitä, kuinka paljon tietoa kustakin piirtokirjoitustekstistä tulisi tarjota, ovat kasvaneet huomattavasti. Yhtä lailla kuin selvitys kunkin piirtokirjoituksen materiaalisista yksityiskohdista, valokuvan liittämisestä piirtokirjoituseditioon on tullut normaali tapa.

Viimeisten 15 vuoden aikana tutkijat ovat joutuneet kohtaamaan samoja ongelmia pyrkiessään liittämään taustatietoa sähköisessä muodossa työstettävien piirtokirjoitustekstien yhteyteen. Käyttöön on kuitenkin tullut työkaluja, jotka tekevät siitä aina vain helpompaa ja kasvattavat tulosten arvoa. 1980-luvulta lähtien tekstinkäsittelyohjelmat ovat tehneet mahdolliseksi sen, että voimme hallita tekstin muokkausta. Niissä käytetty merkintäkieli on nykyisin upotettu näkymättömiin ohjelmien sisään. Laajojen oikeusasioihin, teollisuuteen ja kaupalliseen julkaisutoimintaan liittyvien dokumenttikokoelmien asettamat suuremmat vaatimukset johtivat 1980-luvulla tutkimuksiin tavoista, joilla sisällyttää suurempi määrä tietoa ja ohjeita sähköisessä muodossa oleviin teksteihin. Aluksi keskityttiin lisäämään muotoiluohjeita, mutta monimutkaisemman, dokumentin rakenteeseen ja jopa sisältöön liittyvän semanttisen tiedon sisällyttäminen kehittyi pian. Yksinkertaisena esimerkkinä voidaan mainita kirjan otsikon merkitseminen otsikoksi sen sijaan, että se merkittäisiin vain kursiivilla kirjoitetuksi. Tässä abstraktimmassa merkintäkielessä on mahdollista tehdä ero rakenteen ja ulkoasun välillä. Rakenne on tekstilajin keskeinen ominaisuus kun taas ulkoasu voi vaihdella julkaisumuodosta riippuen. Tavallaan tämä muutos on paluuta aikaisempaan tapaan, jolloin kirjoittaja keskittyi tekstin sisältöön, kun taas kaikki tekstin ulkoasua koskevat seikat hoidettiin painatusprosessissa - ero, joka on ollut kadoksissa näinä painovalmiiden käsikirjoitusten päivinä.

Protokolla, joka syntyi näistä viimeksi mainituista aikaansaannoksista, standardoitiin 1980-luvun lopulla nimellä Standard Generalized Markup Language. Hieman myöhemmin siitä tehtiin yksinkertaisempi ja joustavampi versio verkkokäyttöä varten. Tämä tunnetaan nimellä XML: the Extensible Markup Language. Monenlaisten humanististen oppiaineiden tutkijat käyttävät XML-merkintäkieltä hyvinkin laajalti erilaisten tutkimusaineistojen tallentamiseen/esittämiseen ja säilyttämiseen useita eri tarkoituksia varten.

XML on tavattoman kiinnostava piirtokirjoitustutkijan näkökulmasta. Esimerkiksi puuttuva tekstiosa voidaan merkitä sellaiseksi ja esittää sitten kulmasulkeiden sisässä; samalla tekstiin kohdistuva haku voidaan ohjata tutkimaan vain sitä osaa tekstistä, jota ei ole merkitty puuttuvaksi (eli vain varmoiksi osoitettuja ilmauksia). Epävarmat kirjaimet voidaan merkitä sellaisina ja tehdä vasta myöhemmin päätös siitä, esittääkö ne alapisteen kanssa vai jollakin muulla tavalla. Sanaston perusmuodot voidaan merkitä jo editoinnin aikana hakemistoja varten. Tekstikokoelman kasvaessa hakemisto tekee samoin. Tärkeää on kuitenkin, että jatketaan Leidenin sopimuksen periaatteen tiellä, eli että sovimme mitkä digitaaliset käskyt vastaavat niitä merkintätapoja, joita muutoinkin käytämme. Sillä on merkitystä ensinnäkin siksi, että se yksinkertaisesti säästää aikaa ja vaivaa. Toisaalta yhdenmukaisuus, ilman samankaltaisuuden pakkoa, on yhä hyödyllistä. Käyttäjän on mahdollista tukeutua siihen aivan samoin kuin painettuja sivuja lukiessaan. Lisäksi tällä tavalla editoidut ja sähköisesti julkaistut aineistot ovat hyödynnettävissä yhdessä, vaikka ne olisi laadittu erikseen.

Yhdessä sovittujen toimintamallien tarve ei rajoitu piirtokirjoitustutkimukseen. Vuodesta 1987 kansainvälinen, pääosin humanistisen alan tutkijoista koostuva yhteistyöryhmä on työskennellyt kehittäen ja hioen ohjeistoa dokumenttien rakenteen ja sisällön kuvaamiseen. Näiden pyrkimysten tuloksena on syntynyt XML-perustainen koodauskieli, johon liitetään myös em. ryhmän nimi TEI, Text Encoding Initiatve.

TEI epigraafikoille: Mikä se on ja miksi käyttää sitä?

TEI on tutkimushanke, jonka tavoite on määritellä koodauskieli, joka hyvin yleisluontoisesti kattaa humanistisen alan tutkijoiden tarpeet. TEI:n kehittämisessä on kaksi olennaista päämäärää. Ensimmäinen on suoda tutkijoille mahdollisuus esittää tutkimusaineistonsa digitaalisessa muodossa käyttäen sellaista kuvauskieltä, joka heijastaa humanististen alojen tutkimukselle ominaisia ja keskeisiä analyyttisiä termejä ja käsitteitä. Toinen päämäärä on tehdä mahdolliseksi se, että tutkijat voivat jakaa aikaansaamansa aineistot ymmärrettävästi käyttämällä yhteistä kuvauskieltä.

Voimme ajatella, että TEI koodauskieli muistuttaa luonnollista kieltä: ytimenä sen keskellä on kaikille yhteinen termistö, sitä ympäröi vähemmän yleinen sanasto, joka koostuu paikallisista kielenkäyttötavoista, erikoissanastosta ja muista vastaavista muunnelmista. TEI:n ydintä ovat sellaiset yhteiset termit ja käsitteet, jotka ovat yhteisiä tutkijoille suurimmassa osassa oppiaineita, esimerkiksi kappale, yleinen tekstijako, otsikko, luettelo jne. Tarkemmin määritellyt elementit on ryhmitelty sovellusten mukaan, esimerkiksi elementit yksityiskohtaiseen nimien koodaukseen tai käsikirjoitusten piirteiden esittämiseen tai sanakirjarakenteen kuvaamiseen jne. TEI on tarkoituksella muotoiltu tällä tavalla moduuleiksi, jotta kunkin erikoisalan tutkija voisi käyttää vain niitä osioita, joita hän tarvitsee työssään, ja unohtaa muut. TEI voi tällä tavalla laajeta melkoisiin mittasuhteisiin ilman että se rasittaisi yksittäistä tutkijaa tai tutkimushanketta pakolla hallita valtavaa toiminta-aluetta, josta suurella osalla on merkitystä aivan toisen alan tutkijoille. Sen sijaan TEI koodauskieli voidaan kohdistaa hyvinkin täsmällisesti johonkin aiheeseen tai tehtävään ja rajoittaa vain siihen, mikä on olennaista projektin työssä.

Kuten luonnollista kieltä TEI:tä voidaan käyttää laajan ja vivahteikkaan sanaston luomiseen pienempiinkin yksityiskohtiin ulottuvalla koodauksella, jossa tekstin ilmiöt on seikkaperäisesti kuvattu. Sitä voidaan soveltaa myös hyvin yksinkertaisesti käyttämällä vain muutamaa oleellista käsitettä kuvaamassa keskeisimpiä yksityiskohtia, esim. osiota, otsikkoa, kappaletta. Mitä yksityiskohtaisempi koodaus on, sitä enemmän työn lopputuloksella on käyttöä. Aika, kustannukset, saatavilla oleva työvoima sekä paikallinen erikoisosaaminen saattavat kuitenkin rajoittaa sitä, kuinka yksityiskohtaisena hanke on toteutettavissa.

Tutkijat voivat käyttää tätä koodausjärjestelmää sellaisenaan sen alkuperäisessä muodossa. Sen ohella TEI tarjoaa eri tutkimusaloille mahdollisuuden muokata juuri niiden tarpeiden mukaan sovellettuja versioita TEI -kielestä. Koska nämä mittatilausversiot toimivat yleisessä TEI kehyksessä, ne voivat käyttää sen yleisiä ydintermejä ja käsitteitä ja näin välttää niiden turhaa uudelleenkeksimistä. Lisäksi, koska TEI tarjoaa yleisen kehyksen mittatilausversioiden luomiseen ja kuvaamiseen, niitä voidaan jakaa helposti ja tarkoituksenmukaisesti. Tämän tuloksena eri oppiaineiden tutkijat voivat korostaa omaa työtään luonnehtivia erityisiä päämääriään ja menetelmiään samoin kuin niitä seikkoja, jotka erottavat heidän työnsä toisista, jollakin tavalla heidän alaansa sivuavista. TEI:n piirissä eri tutkimushankkeet voivat esittää tuloksia, jotka aidosti eroavat toisistaan sen sijaan, että erot johtuisivat eri osapuolille käsittämättömien lähestymistapojen aiheuttamasta satunnaisesta ristiriidasta.

Epigraafikoille räätälöity TEI: EpiDoc

EpiDoc -yhteisö on työskennellyt edellä mainituissa puitteissa vuodesta 2000 kehittääkseen erityisesti piirtokirjoitustutkijoiden tarpeisiin sovelletun version TEI:n ohjeistoista. Ajatuksen lanseerasi Pohjois-Carolinan yliopiston Chapel Hillin antiikin historian tutkija Tom Elliott. Tavoite on sekä hyödyntää mahdollisimman laajasti jo tehtyä tutkimustyötä että varmistaa, että piirtokirjoitustekstejä käsitellään samoin kuin muitakin tekstejä, eikä jollakin tavalla eroteltuina niistä. EpiDoc on muokattu poistamalla sille tarpeettomia TEI -elementtejä ja lisäämällä piirtokirjoitustutkimuksessa tarvittavia erityisominaisuuksia mm. transkriptioiden, analyysien, kuvauksien ja luokittelujen tekemiseen. Lopputuloksena on syntynyt yksinkertainen mutta tehokas kieli, jolla voidaan merkitä kaikki piirtokirjoituksissa ilmenevät huomionarvoiset piirteet sekä esittämään tekstien lisäksi myös monumentteihin ja piirtokirjoitusesineisiin liittyvät tiedot.

EpiDoc koodauskielen rinnalle EpiDoc -yhteisö on luonut oppaan koodausta varten sekä ohjelmistotyökaluja ja ohjeistoa, joka kuvaa kuinka koodauskieltä, työkaluja ja muita EpiDoc -menetelmään liittyviä elementtejä käytetään. Tavoitteena on saada aikaan järjestelmä, joka on helppo oppia ja yksinkertainen käyttää myös ilman aiempaa teknistä taustaa tai teknistä tukea. Voi olla vaikea uskoa, mutta XML-koodin tuottaminen on yhtä helppoa kuin standardin piirtokirjoituksen merkitseminen jo olemassa olevan lyhennekokoelman kanssa.

Ryhmä on työskennellyt kehittääkseen ilmaukset kaikille sovituille piirtokirjoitusten merkintätavoille. Ohjeistusta on laajennettu koskemaan myös monia muita piirteitä, joita piirtokirjoitusjulkaisuissa voi esiintyä, mm.

Ks: Dokumentin rakenne.

Muiden aktiivisen työn alla olevien aiheiden joukossa ovat mm. yhteensopivuuskysymykset. Ohjelmistotyökalu tavanomaisesti merkityn piirtokirjoitustekstin muuntamiseksi EpiDoc XML -merkintäkielelle on jo saatu aikaan (ns. Chapel Hill Electronic Text Converter (CHETC)). Toinen keskeinen teema on kattavan sanaston luominen. Esimerkiksi Afrodisiaksen piirtokirjoitustutkimushanke työskentelee kiinteästi Lexicon of Greek Personal Names-hankkeen kanssa saadakseen aikaan mahdollisimman kattavan ja yhdenmukaisesti käytettävän sanaston.

Tätä työtä on johtanut Tom Elliott ja siihen ovat osallistuneet monet yksittäiset tutkijat tiiviissä yhteistyössä keskenään ja pitäen jatkuvasti yhteyttä laajempaan ammattiyhteisöön. Kehittäjät ovat saaneet kokemusta EpiDoc -projekteista, kuten Vindolanda Tablets on line, sekä kahdesta meneillään olevasta hankkeesta US Epigraphy Project (USEP) (jota rahoittavat yliopistot Brown, Princeton ja Rutgers), sekä Afrodisiaksen piirtokirjoitustutkimushanke (InsAph) (jota rahoittaa Arts and Humanities Research Council). AHRC:n runsaan rahoituksen turvin pidettiin marraskuussa 2006 intensiivinen työpaja, jossa nämä ohjeistot hiottiin nykyiseen muotoonsa.

Osion vastuuhenkilöt

  1. Charlotte Roueché, kirjoittaja
  2. Julia Flanders, kirjoittaja
  3. Tom Elliott, muokkaus TEI-Lite:sta ja muita muokkauksia
  4. Gabriel Bodard, sääti ja päivitti monta linkkiä
  5. Katariina Kankaanpää, suomentaja
  6. Marja Vierros, suomentaja

EpiDoc version: 8.23

Date: 2017-03-14