Metada a jejich hlavní schémata

Metada a jejich hlavní schémata 1 Terminologie oblasti

1.1  Zdroje k tématu „metadata“ v současném internetu

Termín „metadata“ je velmi frekventovaným termínem v současné odborné literatuře více vědních oborů, jak bude doloženo malou statistikou dále v textu (části 2.2). S termínem se v prostředí internetu setkává dnes běžně také laická veřejnost. Malá statistika z posledních pěti let dokládá každoroční velký narůst webových dokumentů věnovaných tomuto tématu.

Obr. č. 1: úvodní část obrazovky se zobrazením nalezených obrázků k termínu „metadata“ v systému Google v lednu 2012

V červenci 2008 registroval systém Google přibližně 14 700 000 webových dokumentů, které zahrnovaly termín „metadata“1. Okřídlenou anglickou frázi „Metadata is data about data“2 obsahovalo ve stejné době přibližně 18 600 webových dokumentů. V dubnu 2010 systém registroval již 25 800 000 dokumentů s termínem „metadata“ (skoro dvojnásobek oproti roku 2008) a 55 400 dokumentů s výše uvedenou anglickou frází (skoro trojnásobek oproti roku 2008). V prosinci stejného roku vzrostl počet dokumentů s termínem „metadata“ na 28 500 000 (nárůst za 8 měsíců činil asi 3 miliony dokumentů) a počet dokumentů s anglickou frází na 70 800 webových dokumentů (nárůst za 8 měsíců činil asi 15 400 dokumentů).

V lednu 2012 systém Google již registroval přibližně 127 000 000 dokumentů s termínem „metadata“ (počet se tedy po jednom celém roce téměř zdvojnásobil). Anglickou frázi obsahovalo přibližně 146 000 webových dokumentů (také dvojnásobný nárůst). Obrázků k termínu „metadata“ zaregistroval systém Google ve stejné době 10 400 000 (viz obr. č. 1). Do popředí výsledných obrázků se (typicky) dostala schémata znázorňující subjekty komunikující metadata (například v rámci protokolu OAI-PMH), vícenásobně schémata toků metadat v různorodých počítačových systémech, schémata znázorňující podstatu termínu

„metadata“, přehledové tabulky s údaji o využívání metadat aj.

1.2 Kdy vznikl termín „metadata“?

Někteří autoři s oblibou tvrdí, že metadata existují od chvíle, kdy lidé začali organizovat informace (tedy někdy od starověku), a že minimálně posledních 500 let byla tvorba a správa metadat primárně zajišťována informačními profesionály v rámci informačních procesů, jako jsou katalogizace, klasifikace a indexace informačních objektů [GILLILAND, 2008]. S tímto sdělením by bylo možné souhlasit, pokud by termín „metadata“ měl v současné chvíli roli naprosto obecného (střešního) termínu, pod který by spadal popis, lokalizace a zpřístupňování jakéhokoliv objektu světa (hmotného nebo nehmotného, živého nebo neživého, fyzického nebo elektronického). K tomu však lze vznést určité námitky. Je diskutabilní označit údaje (data) o žijící fyzické osobě v registrační počítačové databázi za metadata v kontextu jejich základní, výše uvedené, definice (metadata jsou data o datech). Fyzickou osobu lze stěží chápat jako „data“3, popisná data o ní se v minulosti i v současnosti označují běžně termínem „faktografická data“. Podobně lze pochybovat, jestli mají záznamy vlastněných vozidel v jejich centrálním počítačovém registru povahu metadatových záznamů (lze označit automobil s určitým výrobním číslem, vlastněný určitou osobou apod. za data?).

Popisy informačních objektů, které mají jasnou povahu „dat“, lze bez diskusí, označit jako metadatové (v tomto případě jde o data o datech). Může jít o klasické dokumenty/zdroje (knihy, časopisy, články, mapy, obrazy, zvukové záznamy aj.), nebo dokumenty/zdroje elektronické. Může jít dokonce i dílčí bibliografické entity dané modelem FRBR, tj. díla4, vyjádření děl, publikace nebo exempláře publikací [Functional Requirements, 1998]. Pro prostředí online dostupných zdrojů (digitálních či digitalizovaných) a systémů, které je komplexně komunikují, je pak termín „metadata“ stoprocentně relevantní.

Výše uvedené sdělení A. J. Gillilandové není zcela korektní v tom, že samotný termín „metadata“ neexistuje na světě dlouho, zrodil se až ve druhé polovině 20. století v kontextu počítačové komunikace informací. Do té doby bylo, a stále ještě je, popisování a lokalizování informačních objektů nazýváno jinými termíny, jako „popis informací“, „bibliografický popis“,

„katalogizace“, „faktografický popis“ aj. Vznik termínu „metadata“ lze objektivním způsobem doložit i na úrovni sekundárních bibliografických databází5, jako je například databáze citačních rejstříků společnosti Thomson Reuters zpřístupňovaná v systému WOS (Web Of Science), nebo bibliografické databáze vybraných oborů (viz dále v textu).


 

Obr. č. 2: statistika a graf počtu záznamů zdrojových článků (zahrnujících termín „metadata“) v databázi systému Web Of Science (WOS) publikovaných v jednotlivých letech 1982-2011 [získáno v modulu bibliometrické systému WOS Analýza výsledků, v lednu 2012]

V rámci polytematické databáze systému WOS (všech jejích částí s retrospektivou 1900-2011) bylo 20. ledna 2012 nalezeno 8 282 záznamů zdrojových článků z vědeckých časopisů6, které zahrnovaly (jednou nebo vícekrát) termín „metadata“ s větší či menší mírou obsahové relevance k tématu metadata. Termín „metadata“ se poprvé objevil v roce 1982, jak dokumentuje příslušný záznam článku z časopisu7. Název článku prozrazuje, že termín „metadata“ byl užit pravděpodobně autory z oboru počítačové vědy, kteří řešili otázku popisu počítačového datového souboru s čísly pro potřeby jejich vyhledávání. Výsledek rešerše z ledna 2012 byl následně bibliometricky zpracován v modulu „Analýza výsledků“ systému WOS (Analyze Results).

Získaná statistika prozrazuje počty záznamů zdrojových článků, které zahrnují termín „metadata“, publikovaných v jednotlivých letech 1982-2011 viz obr. č. 2. Z daného statistického přehledu (obr. č. 2) vyplývá, že problematika metadat byla v 80. letech

20. století řešena v relativně malé míře, a to především z pohledu počítačové vědy, výpočetní techniky a softwarového zabezpečení informačních systémů a jejich databází (záznamy mají většinou přiřazené kategorie „Computer Science, Hardware &

Architecture“ a „Computer Science, Software Engineering“, „Computer Science, Artificial Intelligence“, „Computer Science, Information Systems“ v rámci kategorizace vědeckých časopisů systému WOS).

Obr. č. 3: statistika a graf počtu záznamů zdrojových článků (zahrnujících termín „metadata“) v databázi systému Web Of Science (WOS) publikovaných v rámci různých vědních oborů (letech 1982-2011) [získáno v bibliometrickém modulu systému

WOS Analýza výsledků, v lednu 2012]

90. léta 20. století znamenají, jak dokládá statistika na obr. 2, postupný nárůst dokumentů věnovaných problematice metadat.

První vlna většího růstu dokumentů s touto problematikou nastala v celosvětovém měřítku po roce 1995, zejména v kontextu rozvoje metadatového standardu Dublin Core, ale i dalších. Otázky metadat byly již také řešeny odborníky z jiných oborů než počítačové vědy, ve větším počtu se zapojují i profesionálové z oblasti informační vědy a knihovnictví. Druhá vlna růstu dokumentů nastává po roce 2000, zejména v souvislosti s rozvojem a implementací nových informačních technologií (například protokolu OAI-PMH) a s budováním velkého počtu digitálních knihoven a digitálních archivů po celém světě a také s intenzivním řešením otázky dlouhodobé archivace digitálních dokumentů, která je s metadaty spojena podstatně. Největší množství dokumentů bylo publikováno k daným otázkám v letech 2007-2009, od roku 2010 je zaznamenáván (prozatím) pokles publikovaných článků k tématu metadat. Jiným výstupem výše uvedené bibliometrické analýzy je statistika počtu záznamů článků s tematikou metadat zpracovaných odborníky z různých oborů8. Z přehledu na obr. č. 3 vyplývá, že otázky metadat jsou v rámci nalezených záznamů článků dané retrospektivy řešeny dominantně v oboru počítačové vědy (až 68,2 %).

Následují inženýrské obory (Engineering) (19,2 %), třetí pozici ale zaujímá obor informační vědy a knihovní vědy (Information science, Library science) (14,1 %). Následuje obor telekomunikací (8,2 %), věda o obrazech a technologiích fotografování (4,1 %), optika (3,4 %), výchova a pedagogický výzkum (3,1 %) a další. Výsledné počty záznamů článků (z let 1980-2011) k tématu metadat získané ze systému WOS byly promítnuty také do tab. č. 1 (v prvním sloupci). V dalších sloupcích je představena pro srovnání statistika počtu záznamů dokumentů (především článků z periodik) v hlavních mezinárodních

bibliografických databázích oboru informační věda a knihovnictví. Jde o databázi LISA (Library and Information Science Abstracts) společnosti ProQuest, původní databázi ISTA (Information Science and Technology Abstracts) a její pokračovatelku (po roce 2005) databázi LISTA (Library, Information Science and Technology Abstracts) společnosti EBSCO a databázi LLIS (Library Literature and Information Science) společnosti H. W. Wilson. Hodnoty počtu záznamů u databáze ISTA jsu vedeny do


 

roku 2007 (ukončení provozu), stejně tak u databáze LLIS (ukončení licence pro zpřístupňování). Základní čísla reprezentují absolutní počet záznamů, které obsahují termín „metadata“ (jednou či vícekrát) kdekoliv (včetně abstraktu, existuje-li). V kulaté závorce jsou uvedeny počty záznamů, které obsahují tento termín v poli deskriptor tezauru (DE) anebo v poli řízeného předmětového termínu (SU) jde o záznamy dokumentů, u kterých lze předpokládat vyšší či vysokou míru obsahové relevance z hlediska sledování tématu metadat. Ze statistického přehledu vyplývají následující závěry:

počty záznamů jsou, jak lze předpokládat, u databází oboru informační vědy a knihovnictví oproti polytematické databázi systému WOS, zpravidla vždy nižší, někdy výrazně nižší (například v letech 2006-2009, kdy byla k tématu metadat publikována

veliká masa dokumentů zejména v oblasti počítačové vědy)

v oborových databázích jsou počty záznamů s vyšší mírou obsahové relevance (k tématu metadat, v kulaté závorce), jak lze také předpokládat, vždy nižší než je celkový počet záznamů s termínem „metadata“ kdekoliv, a to zpravidla o 50 %, někdy i více

(do poloviny 90. let 20. století větší míru obsahové relevance nevykazoval, na malé výjimky, žádný dokument) oborové databáze postupně zahrnuly po roce 1995 do tezaurů nebo předmětových heslářů termín „metadata“

vlny růstu dokumentů k tématu metadat (po roce 1995 a po roce 2000) jsou jasně patrné, stejně jako u databázi systému WOS, také u zahrnutých oborových databází

po roce 2009 (léta 2010-2011) dochází (prozatím) k útlumu publikování dokumentů k tématu metadat, což dokladuje nejenom databáze systému WOS, ale také zahrnuté oborové databáze

WOS

LISA (DE)

ISTA (SU)

LISTA (SU–DE)

LLIS (SU)

1980

0

0 (0)

1 (0)

 

1 (0–0)

0 (0)

1981

0

0 (0)

0 (0)

 

0 (0–0)

0 (0)

1982

1

2 (0)

4 (0)

 

4 (0–0)

0 (0)

1983

0

0 (0)

2 (0)

 

2 (0–0)

0 (0)

1984

0

0 (0)

0 (0)

 

0 (0–0)

0 (0)

1985

0

0 (0)

0 (0)

 

0 (0–0)

0 (0)

1986

1

0 (0)

1 (0)

 

1 (0–0)

0 (0)

1987

0

0 (0)

0 (0)

 

0 (0–0)

0 (0)

1988

2

0 (0)

1 (0)

 

1 (0–0)

0 (0)

1989

0

0 (0)

0 (0)

 

0 (0–0)

2 (2)

1990

2

1 (0)

0 (0)

 

0 (0–0)

0 (0)

1991

5

0 (0)

1 (0)

 

1 (0–0)

1 (1)

1992

8

2 (0)

0 (0)

 

0 (0–0)

1 (1)

1993

14

3 (0)

3 (0)

 

3 (0–0)

1 (1)

1994

14

10 (2)

4 (0)

 

4 (0–0)

5 (5)

1995

21

16 (5)

10 (0)

 

10 (0–0)

9 (8)

1996

44

30 (14)

18 (1)

 

21 (3–3)

8 (6)

1997

104

80 (42)

66 (7)

 

70 (11–11)

24 (16)

1998

128

104 (49)

82 (13)

 

82 (16–16)

38 (31)

1999

175

198 (83)

116 (21)

128 (36–36)

74 (53)

2000

257

217 (85)

142 (17)

165 (33–39)

59 (37)

2001

257

242 (106)

188 (57)

220 (83–83)

97 (78)

2002

322

209 (99)

213 (108)

243 (127–

129)

105 (81)

2003

548

216 (116)

136 (73)

213 (119–

127)

107 (75)

2004

684

245 (119)

189 (97)

342 (184–

196)

134 (95)

2005

756

275 (112)

158 (99)

363 (233–

238)

105 (66)

2006

831

277 (117)

172 (119)

427 (281–

290)

159 (103)

2007

923

214 (86)

128 (87)

415 (269–

268)

132 (93)

2008

1101

233 (83)

450 (298–295)

2009

1061

257 (95)

421 (308–269)

2010

729

243 (92)

389 (269–242)

2011

394

131 (64)

349 (236-229)

 

·          databáze ISTA/LISTA zahrnují jeden záznam dokumentu (technické zprávy) k tématu metadat již z roku 19809 (databáze systému WOS záznam tohoto dokumentu nemá), který je věnován komplexnímu popisu Národního energetického informačního systému (USA) NEIS (National Energy Information System) a v jeho rámci také popisu dat a metadat

(adresáře, dokumentace)

největší počty záznamů z oborových databází vykazuje databáze LISTA, a to zejména za léta 2006-2009, což lze vysvětlit také tím, že její producent zvětšil od roku 2006 počet excerpovaných periodik o vybraná periodika z oblasti počítačové vědy a

také z oblasti knihovnictví (která do doby byla zastoupena minimálně)

1.3  Knihovnická katalogizace versus metadata

Často diskutovaným tématem nejenom počítačových odborníků, ale i informačních pracovníků a knihovníků byla a zůstává problematika katalogizačního versus metadatového popisu a také následného uchování a zpřístupňování digitálních zdrojů, zejména síťově dostupných. Jde o téma, které se původně objevilo již v polovině 80. let 20. století v souvislosti s budováním kolekcí či archivů digitalizovaných textů. V následných 90. letech na ně pak navázalo budování komplexnějších digitálních knihoven, které však již obsáhly také jiné typy digitálních zdrojů. Problematika metadat se však stala atraktivní, a to pro podstatně větší okruh odborníků i uživatelů informací, v momentě, kdy začaly být digitální zdroje dostupné přes síť Internet.

Metadata hluboce souvisejí se vznikem a rozvojem této sítě a jejích služeb, zejména služby WWW. Právě v síťovém prostředí význam metadat nabral zcela nových rozměrů.

Knihovnické pracovníky, zejména pak katalogizátory, problematika metadat zajímala proto, že síťově dostupné elektronické dokumenty byly a jsou také předmětem jejich zpracovatelské činnosti. Lze dodat, že v klasickém zpracovatelském procesu se záznamy o dokumentech, jež jsou oddělené od nich samých, nahromadily v dnes již rozsáhlých bázích katalogů10 a slouží koncovým uživatelům pro vyhledávání těchto dokumentů. Příslušné části katalogizačních předpisů včetně formátů pro strojové


 

zpracování zahrnují kapitoly, které takové informace a instrukce běžně obsahují. Základním odborným termínem, který doposud pro označení zpracování dokumentů užívali a stále užívají, je katalogizační popis či záznam, resp. bibliografický popis či

záznam. Lze podotknout, že jde o výrazy užívané v moderní katalogizaci nejméně 150 let [CHAPMAN, 1998, Introduction]. Proto mnohé překvapilo, že se začalo v 90. letech i v odborných knihovnických kruzích hovořit a psát o „metadatech“, jakožto nástrojích či prostředcích popisu elektronických dokumentů, především pak síťově dostupných. Těmi, kdo se takovými problémy prioritně zabývali, však nebyli knihovníci, nýbrž počítačoví odborníci, kteří rozvíjeli další technologie i celkovou novou architekturu komunikace informací na WWW pro 21. století. Intenzivně se buduje sémantický web (Semantic Web) [BERNERS- LEE, 1998a]. Do oblasti knihovnictví vnesli uvedený výraz právě počítačoví odborníci v této oblasti působící. Zhruba v polovině

90. let se začaly mezi knihovníky objevovat první definice a výklady metadat, které byly velmi jednoduché a nepostihovaly zcela podstatu, funkce a význam metadat zejména v síťovém prostředí. V citacích se často opakoval výklad, že metadata jsou data o

datech (viz také výše v textu), z čehož bylo usuzováno, že katalogizační záznamy jsou vlastně také metadata. V řadě studií, připravených v rámci významných výzkumných projektů v zámoří i v Evropě, se dokonce v přehledech, analýzách a hodnoceních metadat objevilo zařazení tradičních bibliografických formátů typu MARC (USMARC, UKMARC, UNIMARC, PICA aj.) jako jednoho z typů metadat [DEMPSEY, 1997, Content]. Někteří odborníci navrhli i základní kategorie (skupiny) metadat, například z hlediska typů organizací, které metadata používají. V jedné ze studií bývalého evropského projektu BIBLINK, věnovaného problematice propojování sféry vydavatelů a národních knihoven v prostředí počítačových sítí, jsou zmíněné formáty zařazeny ve skupině

4.2.2 [HEERY, 1996, kap. 4.2]. Mnohé knihovnické odborníky závěry výzkumů překvapily, někteří je nechápali a ptali se, proč že mají knihovníci své bibliografické formáty nazývat metadaty či metadatovými schématy a výsledek své katalogizační činnosti metadatovými záznamy [HOPKINSON, 1999, část 1]. Někteří se však v diskusích k problému zamysleli hlouběji nad závěry výzkumů a jejich prezentací a po vyhodnocení informací přicházejících také z oblasti informačních služeb provozovaných na Internetu ho pochopili také jako výzvu k zamyšlení se nad pradávnou a palčivou otázkou vztahu mezi popisnými a selekčními

(soupisnými) údaji v popisu dokumentů [GRADMANN, 1999]. Objevily se otázky, jestli mají informace o webových zdrojích, které jsou dnes přenášeny na webu současně se zdroji, stejný charakter a podstatu jako záznamy o dokumentech ukládaných do katalogů či bibliografických databází. Pro lepší pochopení problematiky současných metadat je nutné vyjít za hranice poznatků a zkušeností získaných ve vlastní dílčí specializaci oboru tradičního knihovnictví či bibliografie a snažit se analyzovat a vyhodnocovat nové cesty a procesy komunikace informací, o které se starají dnes také jiní odborníci. Komunikace informací již dávno není doménou jenom knihovníků. Svět webu je světem informací a nové paradigma komunikace informací (včetně informací o informacích) je realitou. Pokud bychom zůstali v zajetí tradičního modelu zpracování dokumentů, byť elektronických, budou nám pojmy „metadata“ a katalogizační/bibliografický záznam připadat stejné. Jejich významy však stejné nejsou. Autor výše citované práce Stefan Gradmann se pokusil porovnat a odhalit podstatné rozdíly mezi oběma pojmy. Poukazuje na fakt [GRADMANN, 1999], že tvůrci dnes jedné z nejznámějších specifikací (sémantiky) metadat Dublin Core (DC, viz dále v textu) při jeho navrhování jednoduše nepřevzali a neupravili existující formát MARC, ale navrhli zcela nový soubor údajů k popisu digitálních zdrojů. Pravdou bylo, že pro současnou ale zejména budoucí architekturu komunikace informací na webu se formát typu MARC ukázal jako nevhodný co do struktury (syntaxe) i co do obsahu (sémantiky). Autor zdůraznil, že při porovnávání obou termínů (metadata a katalogizační/bibliografický záznam) nejde v žádném případě jen o rozdíl v počtu údajů obsažených v záznamech [GRADMANN, 1999, Introduction]. Podstatné rozdíly jsou funkční i strukturní povahy, vězí v celém kontextu produkce a užití metadat v rámci síťové digitální komunikace informací [GRADMANN, 1999, Who does it, and How is it done?].

Konkrétněji autor poukázal na:

otázku předmětu zpracování a popisu (v rámci komunikace na webu může být popisován jakýkoliv digitální objekt; každý digitální objekt, který je přenášen sítí, musí být opatřen jistým minimem informací o sobě)

otázku účelu tvorby údajů o zdrojích (u metadat se podtrhuje účel zjišťování a vyhledávání zdrojů v síťovém prostředí, u bibliografických či katalogizačních záznamů hraje podstatnou roli stránka popis (deskripce); popisná katalogizace dokáže vyloučit

i důležitý údaj pro vyhledávání jenom proto, že není obsažen na titulní stránce, přestože dokument takový znak má) otázku tvůrců záznamů (u metadat na webu se předpokládá primární tvorba ze strany autorů, editorů či vydavatelů,

katalogizační záznamy zajišťují profesionálové)

otázku nezávislosti či samostatnosti jednotlivých metadat a jejich účelného shromažďování, přeskupování, propojování a zejména zpracování a nové užití pro nejrůznější formy výstupů a služeb včetně služeb v oblasti znalostních systémů

otázku užití metadat, která je klíčová: v rámci webu jsou primárními uživateli metadat speciální inteligentní programy zvané

„agenti“; bibliografické/katalogizační záznamy jsou určeny koncovým uživatelům

Při odhalování rozdílů se S. Gradman odvolává na výroky autority v této oblasti nanejvýše povolané – Tima Berners-Leea, zakladatele webu (svého času ředitele Konsorcia World Wide Web, dále jen W3C) a jednoho z tvůrců současné architektury WWW. T. Berners-Lee ve své práci Architektura metadat [BERNERS-LEE, 2009] podal několik základních pregnantně vyjádřených axiómů (předpokladů) a definic s komentáři, které se týkají metadat jakožto podstatné, imanentní součásti celého prostoru WWW. Základní charakteristikou webu je fakt, že [informační] zdroje (v pojetí autora je výraz „zdroj“ základním formálním pojmem, pod nějž spadá termín dokument jakožto zdroj textové povahy), popřípadě obecněji objekty, o které při webové komunikaci v režimu klient-server žádáme a které dostáváme, jsou vždy v rámci komplexu protokolů TCP/IP doprovázeny určitým množstvím informací o nich samotných, aniž je uživatel vnímá či vidí (datum poslední manipulace se souborem, majitel zdroje, typ formátu aj.). Svou povahou však jde o informace o informacích, které počítačoví odborníci běžně nazývají

„metadata“ [BERNERS-LEE, 2009, Documents, Metadata …]. Na obrazovkách nejsou na první pohled vidět, protože jsou součástí tzv. „hlaviček“ (headers) přenášených dokumentů (informací) nebo je doprovázejí při přenosu po síti. Již citovaný T. Berners-Lee ve svém výkladu rovněž nečiní podstatnější rozlišování obou pojmů [BERNERS-LEE, 2009]. Volně lze dále parafrázovat: metadata se v procesu užití stávají metainformacemi. Protože výraz „užití“ je vztahován v první instanci na inteligentní programy-agenty, bude vhodné v rámci zcela automatizovaných složitých cest a procesů zpracování a využívání údajů o zdrojích, které v prostoru webových technologií již existují a dále se rozvíjejí, preferovat pojem „metadata“.

Tim Berners-Lee uvádí ve výše citované práci základní definici pro metadata: jde o „stroji srozumitelné informace o webových zdrojích nebo dalších věcech“ [BERNERS-LEE, 2009, Documents, Metadata …, Definition]. Lze zdůraznit, že v definici se skutečně nevyskytuje fráze „strojem čitelné informace“, na který jsme byli zvyklí u bibliografických formátů typu

MARC, nýbrž fráze „stroji srozumitelné informace“ (angl. „machine understandable information“). Jde o zásadní rozdíl obou frází. Definice vypadá na první pohled velmi jednoduše, ale skrývá v sobě řadu podstatných momentů, které byly již zmíněny výše v textu v rámci charakteristiky metadat S. Gradmana. Zdůrazněna je klíčová charakteristika metadat, totiž, že jde o stroji srozumitelné informace. Předpokládá se jejich zpracování v/pro nejrůznější aplikace pomocí inteligentních programů označovaných termínem „agenti“. Znamená to, že informační jazyk uložených metadat musí být naprosto formálně logicky správný a jednoznačný. Až se podaří zdokonalit informační jazyky metadat i programy, které je budou zpracovávat a využívat, vytvoří se základna pro web strojům srozumitelných informací o čemkoliv: o lidech, věcech, pojmech, faktech, myšlenkách atd. Předpokladem ovšem je v daném okamžiku vybudování systému pro informace o informacích (informačních objektech, zdrojích či entitách) [BERNERS-LEE, 2009, Documents, Metadata …, Definition]. Pro metadata platí podle T. Berners-Leea


 

několik předpokladů, o kterých není nutné diskutovat. Předně platí, že metadata jsou data. Obecně jde o informace o informacích, a proto musejí být metadata považována za informace ve všech jejich aspektech [BERNERS-LEE, 2009, Documents, Metadata …, Definition]. Metadata mohou být uložena jako každá jiná data v nějakém zdroji, to znamená, že nějaký zdroj může obsahovat informaci o sobě samém nebo o jiných zdrojích. V současné praxi webu tedy existují tři způsoby existence a cest komunikace metadat:

1) údaje o webovém zdroji jsou obsažené v něm samotném v hlavičce v tagu <HEAD>; jde o způsob základní existence a předpokládalo se, že bude uplatněn v řadě aplikací metadat (v této chvíli se využívá omezených možností jazyka HTML nebo XHTML); příkladem mohou být v současné době aplikace metadat Dublin Core v dokumentech HTML či XHTML, v budoucím

provozu se počítá s jazykem XML (metadata ve struktuře XML jsou lokalizována mimo vlastní zdroj)

2) údaje o webovém zdroji, které doprovázejí komunikaci typu „klient-server“; po přenosu zdroje je možné údaje pomocí příslušné funkce prohlížeče získat; tento způsob je předmětem značného zájmu počítačových odborníků

3)  údaje o nějakém webovém dokumentu je možné získat z jiného webového dokumentu (jsou jeho součástí); tato cesta je perspektivní pro budoucí efektivní komunikaci na webu (konkrétně půjde již ale zejména o dokumenty ve struktuře XML) Metadata jako taková mohou být sama předmětem popisu jako svébytné digitální objekty. Pak by se dalo hovořit o „meta-

metadatech“. Z praktických důvodů se však tento termín používá málo11 a o takových datech se také hovoří jako o metadatech.

Pokud jde o formu metadat, je tvořena množinou nezávislých výroků, které reprezentují údaje o zdroji. V počítačovém systému nabývají výroky formu jména či typu výroku a souboru dalších parametrů. Například:

Jméno výroku Autor zdroje Parametr 1 Jméno autora zdroje Parametr 2 Afiliace autora zdroje Parametr 3 E-mail autora zdroje

O dvou výrocích týkajících se stejného zdroje platí, že jsou nezávislé a mohou existovat samostatně. Jde o významnou a pro komunikaci na webu důležitou vlastnost metadat. Pokud se vyskytují dohromady na jednom místě, označujeme je jako

„kombinovaný výrok“. Množiny výroků jsou považovány za neuspořádané seznamy.

Výroky o zdrojích korespondují s jejich příslušnými vlastnostmi (atributy či znaky). To znamená, že typ výroku je výrokem o tom, že zdroj pojmenovanou vlastnost (např. autor, název, datum apod.). Parametrem se rozumí buď dílčí typ vlastnosti (např. autor-fyzická osoba, autor-korporace apod.) nebo dílčí vlastnost (např. jméno autora, afiliace autora, e-mail autora apod.). Například:

Autor zdroje

Jméno autora zdroje Tim Berners-Lee

Afiliace autora zdroje World Wide Web Consortium

E-mail autora zdroje timbl@w3.org

Ke každé vlastnosti náleží konkrétní hodnota, obecně pak hovoříme o modelu dvojice (páru) vlastnost/hodnota.

Na obecné úrovni je výrok o zdroji celkově tvořen následujícími komponentami:

Implicitně nebo explicitně musí být dále součástí výroku:

učiněného výroku

Aby byla tvorba metadat na webu důvěryhodná a spolehlivá, budou v celkové budoucí architektuře hrát významnou roli jmenné prostory (zdroje s příslušným URI), které budou obsahovat slovníky se jmény či typy vlastností, jež jsou definovány podle stanovené metodiky v rámci příslušných specifikací metadat. Předpokládá se jejich hypertextové propojení s tvořenými záznamy metadat jednotlivých webových zdrojů. V tomto případě půjde o specifické výroky typu vztahu mezi dvěma zdroji, které budou realizovány přes hypertextové odkazy. Celý takový výrok bude tvořen typem výroku a dvěma identifikátory URI.

1.4  Metadata v životním cyklu informačních objektů

Termín „metadata“ je spojován zejména s procesy popisování informačních objektů (informačních zdrojů, informačních entit). Popisná funkce nebo role metadat však dnes není jediná. Zejména v prostředí zdokonalujících se systémů digitálních informací jsou i jin typy metadat postupně vytvářeny, doplňovány a různorodě komunikovány v rámci následujících základních etap životního cyklu digitálních nebo digitalizovaných informačních objektů12:

Tvorba, vícenásobné verze a nová užití informačních objektů. Objekty, které vstupují do digitálního informačního systému jako přímo digitální nebo digitalizované, by měli jejich tvůrci nebo správci opatřovat alespoň základními popisnými a též

administrativními metadaty, a to zejména v případech, kdy se přepokládá jejich nové užití (může jít například o přímou tvorbu metadat autory objektů v archivech vědy a výzkumu v rámci auto-archivačních procesů aj.) Metadata mohou být vytvářena také v průběhu tvorby vícenásobných verzí stejného informačního objektu (verze pro běžné zpřístupňování koncovým uživatelům, verze pro dlouhodobou archivaci aj.) – metadata mohou být vytvářena cestou automatického generování při digitalizaci papírového dokumentu (například technická metadata).

Popis a organizování informačních objektů. Objekty, které mají být uloženy v digitálních repozitářích, musejí být opatřeny potřebným množstvím popisných metadat včetně metadat věcného charakteru a také metadat o uložení ve struktuře digitálního informačního systému. Tato metadata mohou být vytvářena buď automaticky (například pomocí extrakce popisných

údajů ze strukturované hlavičky úplného textu) nebo ruční cestou profesionály v rámci registračních, katalogizačních a indexačních procesů. Přídavná metadata mohou být v současnosti po zveřejnění dokumentů také vytvářena koncovými uživateli v rámci specifických webových rozhraní (folksonomie).

Validace informačních objektů. Uživatelé pečlivě zkoumají metadata i jiné aspekty nalezených informačních zdrojů, aby

zjistili jejich autenticitu a důvěryhodnost.

Vyhledávání informačních objektů. Správně vytvořená popisná metadata jsou podstatná k tomu, aby byli uživatelé schopni tato metadata a příslušné informační objekty snadno a efektivně vyhledat. Informační systémy zároveň automaticky

vytvářejí a udržují specifická metadata (logy), která sledují kroky či postupy uživatelů při vyhledávání, a také efektivnost vyhledávacího procesu.

Využívání, ochrana a dlouhodobá archivace informačních objektů. V digitálním prostředí mohou být informační objekty využívány nejrůznějším způsobem, mohou být reprodukovány, upravovány aj. V rámci těchto procesů mohou být

vytvářena a komunikována metadata vztahující se k uživatelským anotacím, ke sledování práv, ke kontrole verzí apod. Digitální objekty, zejména ty vytvořené přímo jako digitální, je nutné dlouhodobě archivovat (aktualizovat, migrovat aj.), aby byla zajištěna jejich neustálá dostupnost dnes i v budoucnosti. Archivační proces předpokládá vytvoření specifických archivačních metadat (například v souladu se standardem OAIS [ISO 14721:2003]).


 

Dispozice informačních objektů. Metadata hrají významnou roli v dokumentování zpřístupňování informačních objektů z

digitálních repozitářů

1.5  Definice termínu „metadata“ a jejich typologie

Zcela obecnou definici metadat, která byla uvedena v úvodu této části textu („metadata jsou data o datech“), lze, též v kontextu jejich výše uvedených rolí či funkcí v životním cyklu informačních objektů, zpřesnit a rozšířit. Většina odborníků ze zainteresovaných oborů či oblastí definuje metadata jako strukturované informace, které popisují, osvětlují, lokalizují a různými způsoby usnadňují vyhledávání a využívání informačního zdroje [WISSER, 2007].

Odborníci se v zásadě shodují také ve vymezování základních typů metadat v současné praxi digitálních informačních systémů a jejich služeb. Lišit se mohou v jejich uspořádanosti [GILLILAND, 2008, Categorizing Metadata; TAYLOR, 2004, s. 147-152]. Jde o následující základní typy, resp. podtypy metadat:

Popisná metadata (angl. Descriptive metadata)

Popisná metadata reprezentují vnitřní vlastnosti (atributy či charakteristiky) informačních objektů (zdrojů). Jde například o údaje o tvůrci zdroje, jeho názvu, vydavateli, roku vydání, o údaje týkající se obsahu zdroje aj. Popisná metadata pomáhají tyto objekty identifikovat, odlišovat jejich jednotlivé verze, vyhledávat a vybírat. Vznikají zejména při profesionální tvorbě bibliografických databází, katalogů, archivních inventářů a digitálních fondů. Také je ale mohou dnes vytvářet sami tvůrci informačních objektů v digitálních archivech anebo i uživatelé při jejich vyhledávání (folksonomie). K významným metadatovým schématům popisných metadat patří například schémata Dublin Core, MARCXML, MODS, hlavičky TEI, EAD aj.

Administrativní metadata (angl. Administrative metadata)

Administrativní metadata jsou využívána k řízení a správě digitálních objektů v rámci jejich digitálních fondů (digitálních úložišť, digitálních repozitářů). Slouží spíše profesionálům, nikoliv koncovým uživatelům. Někteří odborníci zařazují k administrativním metadatům také metadata archivační/ochranná, technická a právní (viz další tři typy, resp. podtypy metadat v rámci tohoto bloku). Administrativní metadata pomáhají určitě lokalizovat informační objekty, poskytují informace o době vzniku a poslední modifikaci digitálního objektu, o okolnostech digitalizace, o vstupu objektu do repozitáře, o elektronickém podpisu, o právních aspektech přístupu k objektu aj.

Archivační/Ochranná metadata (angl. Preservation metadata)

Archivační/Ochranná metadata podporují procesy související s dlouhodobou archivací a ochranou digitálních informačních zdrojů. Archivační metadata by měla zajistit trvalou integritu a kontext dokumentu jako podmínku pro jeho zpřístupnění v budoucnosti. K typickým archivačním metadatům patří původ a historie objektu, vztah k dalším informačním objektům, údaje o hardwaru a softwaru pro zobrazování informačního objektu aj. Předpokládá se, že jsou vytvářena (generována) automatickou cestou.

Archivační/Ochranná metadata jsou požadována také mezinárodní normou ISO – Referenčním modelem OAIS [ISO 14721:2003]. Reprezentantem archivačních/ochranných metadat je například známý standard PREMIS. Technická metadata (angl. Technical metadata)

Technická metadata reprezentují technické charakteristiky digitálních (počítačových) souborů, například údaj o datovém formátu zdroje, velikosti počítačového souboru, komunikačním protokolu, kompresi, kontrolním součtu aj.). Mohou být vytvářena počítačovým programem a jsou zpravidla určena pro další zpracování určitým počítačovým systémem či automatickou službou.

Důležitá jsou pro zajištění dlouhodobé archivace a ochranu digitálních objektů. Ke známým schématům technických metadat patří například metadatové schéma MIX pro statické digitální obrazy, hlavičky TEI pro textové zdroje aj.

Právní metadata a metadata o přístupu (angl. Rights metadata and Access metadata)

Právní metadata a metadata o přístupu poskytují informace o právech tvůrců na duševní vlastnictví (například autorské právo, patentové právo aj.) a právních dohodách (licencích), které umožňují uživatelům přístup k informačním objektům (např. oprávnění kopírovat, reprodukovat nebo šířit informační objekt).

Strukturální metadata (angl. Structural metadata)

Strukturální metadata poskytují informace o vnitřní organizaci či struktuře digitálního objektu. Mohou reprezentovat strukturu a vztahy dílčích digitálních objektů, které tvoří komplexní digitální informační objekt (například jednotlivé digitalizované stránky čísel časopisů celého ročníku, kapitoly jedné knihy a připojené obrázky, svazky vícesvazkového souboru aj.). Jsou nezbytná pro zpřístupnění objektu koncovým uživatelům, pro jeho správné zobrazení a navigaci digitálního objektu. Významná jsou i pro dlouhodobou archivaci. Pro strukturální metadata je vhodné využít dílčí část (<structMap>) metadatového standardu METS.

1.6 Termín „metadatové schéma“

Dalším frekventovaným termínem v oblasti metadat je termín „metadatové schéma“ (angl. metadata scheme). Termín byl definován v řadě dokumentů, rozumí se jím soubor metadatových prvků (angl. elements) a pravidel k jejich používání, který byl definován pro nějaký specifický cíl [WISSER, 2007].

K současné době bylo na světě vytvořeno velké množství metadatových schémat. Každé metadatové schéma definuje určitou, větší nebo menší, množinu prvků, které se budou používat pro tvorbu metadat (metadatových záznamů), dále jejich obsah (sémantiku) včetně případných pravidel pro plnění hodnot jednotlivých prvků a strukturu (syntax) pro potřebu komunikace metadat, zejména v elektronickém a síťovém prostředí. Některá metadatová schémata mohou mít specifikovánu jenom sémantiku (například Dublin Core) s tím, že pro potřeby komunikace (výměny) metadat mezi systémy se dodatečně může stanovit více struktur (například XHTML, RDF, XML aj.).

Hodnoty prvků se mohou vytvářet volně jednoduchým způsobem (může být určen například autorům, kteří metadata musejí sami tvořit), anebo řízeně (určen zejména školeným profesionálům). V rámci řízeného způsobu se využívá různých pravidel popisu (např. katalogizační pravidla, jako je AACR2 aj.) a také řízených slovníků (číselníků) menšího nebo většího rozsahu (typů datových formátů, typů informačních zdrojů, kódy jazyků, kódy zemí aj.), klasifikačních soustav, souborů autoritních dat (jmenných, předmětových). Specifickým prvkem metadat jsou v současnosti také (optimálně) trvalé identifikátory, které jednoznačně identifikují daný informační zdroj. K významným identifikátorům pro digitální zdroje dnes patří identifikátory DOI, HDL, ARK, URN, PURL aj.

Trendem současnosti je využívání známých metadatových schémat majících povahu mezinárodního standardu (například Dublin Core, MODS, MADS, METS, hlavičky TEI aj.). Jejich výhodou je bezproblémová výměna metadat mezi systémy v celosvětovém záběru.

2 Významnámetadatová schémata(výběr)

Tato část textu zahrnuje (v této verzi) přehled vybraných metadatových schémat, která mají povahu „mezinárodních standardů“ a která jsou nejvíce využívaná v praxi současných digitálních knihoven a digitálních archivů pro komunikaci metadat. Vybrané příklady nejznámějších metadatových schémat zahrnují jejich stručnou charakteristiku s případným vývojem, specifika jejich sémantik a příklady metadatových záznamů.

2.1  Metadatové schéma Dublin Core (DC)

Metadatové schéma „Dublin Core“ je jednou z nejznámějších specifikací metadat. Byla původně navržena pro popis webových informačních zdrojů, dnes je využívána ve velkém počtu systémů digitálních knihoven, digitálních archivů a nadstavbových služeb metadatových databází. Jde ve své podstatě o specifikaci (sémantiku), která je již více než 16 let stále středem


 

pozornosti v celosvětovém měřítku. Specifikace univerzální záběr a je jednou ze základních specifikací, které přispěly k vytváření syntaktické struktury metadat v projektu Rámce pro popis zdrojů (RDF).

2.1.1  Vznik schématu Dublin Core

Iniciativa „Dublin Core“ (její přesné jméno je „Dublin Core Metadata Initiative“, dále také jako DCMI, http://dublincore.org/) [Dublin Core Metadata Initiative, 2012] se zákonitě zrodila v technologicky příznivých podmínkách rozvoje internetu a jeho informačních služeb. Postupný nárůst síťově dostupných zdrojů (v letech 1991-1995) na jedné straně, ale jejich jen velmi obtížné zjišťování či vyhledávání na straně druhé, zejména pokud jde o obsah poskytovaných informací, přimělo řadu odborníků z oblasti počítačové vědy, informační vědy, knihovnictví a dalších příbuzných oblastí k intenzivním úvahám a krokům k řešení tohoto vážného problému. Na pořad dne se, vedle jiných, dostala v historickém kontextu často opakovaná otázka účinné kontroly, ale i nových způsobů komunikace informačních zdrojů – tentokrát síťově dostupných – pomocí informace označované termínem „metadata“. Za oficiální iniciativy Dublin Core je pokládáno jednání pracovního semináře, které se uskutečnilo v březnu 1995 v americkém Dublinu (Ohio). Není náhodou, že šlo právě o toto město. Jak známo, je sídlem centra největší americké i světové sítě knihoven OCLC a hlavní aktéři semináře i celé iniciativy byli v té době zaměstnanci jejího výzkumného oddělení (zejména Stuart L. Weibel a Eric Miller). Sponzorsky se na semináři podílelo i Národní centrum pro počítačové aplikace NCSA (National Centre for Supercomputing Applications). Cílem semináře bylo společné posouzení potřeb, předností, nedostatků a stávajících řešení daného problému ze strany majitelů či provozovatelů informačních fondů na WWW a zejména dosažení shody při vytváření základního souboru metadatových prvků k popisu zdrojů. Kritériem výběru jednotlivých prvků byly podstatné vlastnosti (znaky) síťových digitálních zdrojů z hlediska jejich vyhledávání, vyloučeny byly v dané chvíli všechny další vlastnosti (znaky), které směřovaly k plnění jiných funkcí práce s těmito zdroji (technické, technologické. archivační, obchodní aj.). Za účelem rychlého dosažení pozitivních výsledků byly v úvahu v prvním okamžiku vzaty pouze digitální zdroje textové povahy.

Při navrhování základní množiny metadatových prvků k popisu zdrojů se zajisté nabízela i cesta odvodit ji např. ze známých stávajících modelů knihovnických katalogizací (formátů typu MARC s příslušnými pravidly). K „derivační“ cestě však nemohlo dojít. Profesionální a složitá tvorba záznamů informačních zdrojů aplikovaná v oblasti knihoven byla vyloučena z několika důvodů. Formáty typu MARC jsou jenom „strojem čitelné“ , nikoliv však „stroji srozumitelné“ (formát MARCXML v té době ještě neexistoval), tj. jejich struktura i sémantika nevyhovovaly požadavkům na budoucí architekturu komunikace informací včetně informací o informacích (metadat) na WWW. Podstatným důvodem byl i ohled na budoucí tvůrce záznamů, jimiž mohli či měli být i samotní autoři (tvůrci) nebo vydavatelé (zpřístupňovatelé) zdrojů. Záměrem bylo, jak deklarují materiály ze semináře [WEIBEL, 1995, část 1.3], vytvoření zcela jednoduchého strukturovaného záznamu (popisu) nového typu, který by byl doplňkem jednak k popisům knihovnických katalogizací typu MARC apod., resp. popisům typu metadat složitějšího obsahu (např. formát TEI), jednak k zatím nevyhovujícím či nedostatečným popisům realizovaným v rámci zcela automatizované indexace plných textů webových dokumentů přes internetové systémy typu „search engine“. Při vytypovávání jednotlivých údajů nicméně profesionální katalogizační popis sehrál jistou pozitivní úlohu také, a to především proto, že předmětem byly textové digitální dokumenty, jejichž vlastnosti (znaky) se v řadě případů shodují s tradičními. Nebylo tedy nutné při zjišťování a poznávání podstatných vlastností začínat od stavu „nula“, ale mohly se uplatnit již dřívější znalosti a zkušenosti. Na semináři byl deklarován také požadavek na tzv. „promítání“ (mapping) metadat do profesionálních struktur typu MARC, které však narazilo na některé problémy, v jejichž pozadí jsou formy katalogizačních údajů, ale také nové specifické vlastnosti dynamických digitálních zdrojů.

Pozitivním momentem tvorby nového typu popisu informačních zdrojů bylo z jistého aspektu také zintenzivnění jejich poznávání s cílem přispět k rozvoji teorie společenské informační komunikace.

Navržená množina údajů pro popis digitálních dokumentů, označená termínen „Soubor prvků metadat Dublin Core“ (Dublin Core Metadata Element Set, ve zkratce DC), zahrnovala v době svého vzniku celkem 13 prvků. Je potřeba uvést, že nešlo o definici komplexního formátu, jak jsme zvyklí vídat u formátů typu MARC, zdůrazňována byla v první fázi pouze stránka

sémantiky (obsahu). Syntax (struktura) potřebná zejména ke komunikaci metadat v reálných sítích, stejně jako jejich bližší specifikace ve formě různých průvodců, byly ponechány stranou. Z pozdějšího výčtu základních 15 údajů (viz dále v textu) chyběl údaj pro anotační popis (Description), který byl zaveden až později zejména pro potřeby zpracování obrazových zdrojů, a dále speciální údaj pro ochranu autorských práv (Rights), jehož potřeba se ukázala později rovněž jako důležitá. Jako hlavní a v podstatě jediný údaj věcné povahy, pokud se nebere v potaz údaj o názvu digitálního dokumentu či objektu a specifický údaj o geografickém a časovém pokrytí (Coverage) dokumentu/objektu, byl v souboru uveden údaj o předmětu/tématu (Subject), a to v pořadí jako první z důvodu jeho nejdůležitějšího postavení z hlediska vyhledávání. Následovaly údaje dobře známé z oblasti tradičního popisu dokumentů: název (Title), dále trojice tzv. „činitelů“, resp. „agentů“ (z angl. Agents) procesu informační, resp. dokumentové komunikace, tedy autor (Author), nakladatel/vydavatel (Publisher), u něhož se ovšem v krátké definici zdůrazňovala novodobá funkce instituce, která dokument v síti zpřístupňuje, a sekundární další činitelé (Other Agents) – z hlediska knihovnické katalogizace by se dalo uvést, že šlo o tzv. další původce. V kontextu komunikace digitálních zdrojů jim však mohly být přisuzovány další role, resp. jejich role se i měnla. K dalším vytypovaným údajům patřily datum (Date), jehož uplatňování v popisu dynamických digitálních zdrojů je dodnes značně komplikované a stále diskutované, typ objektu (Object Type), který patří co do dílčích hodnot k jedněm z nejsložitějších [BRATKOVÁ, 2005], forma (Form), představující reprezentaci (uspořádání) dat na počítačovém médiu, specifický identifikátor (Identifier), kterým je pro webové zdroje především jejich adresa uložení (URI, URN, URL), údaje o vztahu/vazbě k jiným zdrojům (Relation), údaj o původním zdroji (Source) digitalizovaného dokumentu a konečně jazyk (Language) zdroje.

Specifickou a stále diskutovanou otázkou bylo deklarované zaměření specifikace DC na autory a vydavatele dokumentů. Šlo tehdy o velmi zajímavý moment v rámci společenské dělby práce v informační komunikaci. Předpokladem však bylo, a již první seminář tuto vizi nastínil [WEIBEL, 1995, část 3.0], vytváření účinných interaktivních pracovních formulářů a dalších nástrojů dostupných na WWW a v jejich rámci zejména automatické využívání profesionálních souborů metadat typu číselníků, řízených heslářů, tezaurů, identifikátorů apod., které už existují.

Aktéři prvního semináře se rovněž shodli na zásadách dalšího rozvíjení formátu. Zdůrazněno bylo zejména:

 

vzájemné budoucí součinnosti

(interoperability)

 

řes tehdejší tzv. kvalifikátory

(schémata/modely hodnot údajů a typy údajů)

2.1.2  Další rozvíjení DC

Výsledky prvního semináře iniciativy Dublin Core uvítala řada institucí v USA ale i v zahraničí, které se rozhodly připravit první projekty zpracování webových dokumentů ve svých automatizovaných provozech. Patřily k nim například kdysi významný Severský projekt metadat (The Nordic Metadata Project) zajišťovaný a řízený informační sítí NORDINFO [The Nordic Metadata, 2000], v jehož rámci byl připraven na WWW dostupný generátor unifikovaných jmen zdrojů URN (Uniform Resource Names) pro účastníky ze Skandinávie, dále pohodlný interaktivní formulář k tvorbě metadat podle Dublin Core (v současnosti již


 

není dostupný) a také experimentální konvertor pro převod metadat do formátů typu MARC (není již rovněž k dispozici). Prověřování možností převodu („mapování“) metadat Dublin Core do tehdejšího knihovnického formátu USMARC v rámci výzkumných aktivit zahájila také Kongresová knihovna ve Washingtonu. Již výše v textu zmiňované problémy, které z toho vzešly, byly především povahy sémantické. V zájmu realizace konverze bylo dokonce v roce 1996 do formátu USMARC doplněno nové pole 720 pro nekontrolované jméno pro potřebu převodu údaje o autorech/tvůrcích digitálních zdrojů DC, které nejsou řízeny přes soubory autorit [DEMPSEY, 1996, část 2.3]. V průběhu příprav na realizaci prvních projektů využívajících specifikace údajů DC vyvstala před zpracovateli řada problémů. Po zhruba roční elektronické diskusi byly jednotlivé sporné a otevřené otázky předloženy účastníkům 2. pracovního semináře DC, který se konal již za početné účasti odborníků z dalších zemí ve Velké Británii na Warwickské univerzitě v dubnu 1996 [DEMPSEY, 1996]. Seminář má v historii iniciativy DC mimořádný význam, protože na něm byl předložen k posouzení významný návrh modelu komunikace metadat v síti Internet, který dostal jméno

„Warwick Framework“ (Warwickský Rámec). Jednání konkrétně projednalo následující okruhy problémů:

Specifikace syntaxe metadat pro potřeby jejich přenosu v prostoru WWW. Ukázalo se totiž, že při realizacích projektů zpracování a využívání informací o digitálních zdrojích tvůrci začali navrhovat a uplatňovat různou navzájem neslučitelnou syntax a strukturní vazby k přenosu metadat v prostoru WWW. Chyběl definovaný společný model takového přenosu. Příslušná pracovní

skupina proto připravila návrhy k vytvoření jednoduchého nástroje na vnoření metadat přímo do dokumentů. V rámci jazyka SGML byla pro metadata navržena speciální tabulka pro definici dokumentu DTD, která byla promítnuta do formátu HTML (v roce 1996 ve verzi 2.0), a to v rámci jeho hlavičky, tj. tagu <HEAD>. Zároveň byl připraven návrh na propojení metadat na externí zdroj, který obsahuje jejich specifikaci (definici). Shodou okolností byl v květnu 1996 konán i seminář Pracovní skupiny pro distribuovanou indexaci a vyhledávání konsorcia W3C za účasti představitelů všech významných vyhledávacích systémů a služeb na WWW, na kterém byl přijat konsensus, v jehož rámci byly jako dočasné řešení návrhy iniciativy DC (v rámci WF - viz dále v textu) přijaty.

Příprava pracovních manuálů a interaktivních formulářů k tvorbě metadat. Tvorba takových pomůcek se stala v rámci realizovaných projektů velmi naléhavou, protože je měli vytvářet autoři dokumentů nebo vydavatelé. Příkladů dobře fungujících interaktivních formulářů k tvorbě metadat včetně doplňkových elektronických průvodců bylo možno najít na WWW mnoho (výše byl v textu zmíněn formulář Severského projektu metadat, který byl v českém překladu implementován také v ČR (na serveru

NK ČR) a který v nové verzi souží stále na webu Webarchivu.

Způsoby rozšíření základní skupiny metadat Dublin Core představovaly velmi palčivý problém. Řada systémů apelovala na doplnění různých dalších údajů, které by zajišťovaly další potřebné funkce při využívání zdrojů. Velký tlak byl vyvíjen ze

strany představitelů užívajících formáty typu MARC. Základní myšlenkou tvůrců DC ovšem bylo, že údaje potřebné pro zajišťování lokálních a specializovaných funkcí pro práci s digitálními zdroji jsou v kompetenci jejich systémů. Specifikace DC představuje skutečně jenom základní společné jádro pro popis zdrojů – v rámci WWW měla plnit základní funkci poznávací (nástroj popisu/zobrazení zdroje) a komunikativní (nástroj uložení, přenosu a využití obsahu popisovaného zdroje).

Specifikace rámce (architektury) pro vzájemnou komunikaci metadat v prostoru WWW. Tým amerických odborníků navrhl a na jednání semináře předložil k posouzení návrh modelu pro komunikaci metadat pocházejících z různých systémů, který dostal jméno „Warwick Framework“ (dále též jako WF). Pro jeho přípravu byly do úvahy kromě Dublin Core vzaty ještě

formát RFC 1807 a formáty (formuláře) IAFA. Warwickský rámec se stal vedle jiných předchůdcem tzv. „Rámce pro popis zdrojů“ (RDF, Resource Description Framework), který byl do roku 2004 rozvíjen konsorciem W3C. Warwickský rámec byl návrhem architektury, který měl vyhovovat jednotlivým modelům metadat v prostoru WWW a navzájem je spojovat. Šlo o architekturu pro vzájemnou výměnu jednotlivých souborů (balíčků) metadat nejrůznější povahy: záznamy zdrojů (DC, IAFA apod.), soubory definic, struktur a sémantik jednotlivých metadat, různé číselníky, tezaury apod. I proto důležité místo ve WF hrála navržená

typologie jednotlivých objektů metadat. Byly navrženy tři základní typy: jednoduchý soubor metadat (např. záznam jednoho zdroje), nepřímý soubor metadat (tj. odkaz na externí jiný zdroj, který je obsahuje) a kolekce více objektů metadat najednou (tzv. kontejner) [LAGOZE, 1996, The Warwick Framework architecture]. V reálném provozu se pak předpokládal zcela automatizovaný sběr a směna metadat v konzistentní formě, seskupování jednotlivých typů metadat nebo jejich využívání pro specifické skupiny uživatelů (agenti/klienti). Extenzí návrhu WF byla i jeho konkrétní, byť limitovaná, implementace pro HTML, verzi 2.0 s podmínkou, že bude transparentní pro existující prohlížeče WWW, indexační a vyhledávací služby a další HTML nástroje. Implementace byla důležitá pro realizaci řady projektů. Konkrétně byla pro HTML realizována následující syntax:

META tag pro uložení vnořených metadat v rámci hlavičky <HEAD> HTML dokumentu. V každém META tagu byla specifikována dvojice „jméno/hodnota“, která byla kódována pomocí atributu „NAME“ a atributu „CONTENT“. V hlavičce mohly být obsaženy vícenásobné údaje. Jednoduchý příklad jednoho údaje:

<META NAME="title" CONTENT="Metadata Architecture">

Pro hodnotu atributu NAME byla navržena zvláštní tečkovací notace, pomocí níž se udávalo jméno souboru metadat a (po tečce) jméno údaje. Později se tečky uplatnily i pro vyjádření typologie jmen údajů. Dnes je tento systém označován termínem

„pseudo-hierarchická tečkovací notace“ [Dublin Core Metadata Initiative, 1999b, část 3.1] (dnes již není využíván). Metadata Dublin Core obdržela jméno „DC“. Konkrétní příklad dvou údajů:

<META NAME="DC.Title" CONTENT="Metadata Architecture">

<META NAME="DC.Autor" CONTENT="Tim Berners-Lee">

LINK tag byl navržen pro potřeby uvedení odkazu na webový zdroj, v němž se nachází specifikace (definice) daného použitého souboru metadat. Syntax obsahovala typ schématu souboru metadat (atribut REL) a URL zdroje na WWW (atribut HREF).

Například definice údaje „název“ ve specifikaci DC byla odkazována následujícím způsobem:

<LINK REL=SCHEMA.dc HREF="http://purl.org/metadata/dublin_core_elements#title">

Větší zásah do souboru (množiny) Dublin Core byl proveden po konání v pořadí 3. semináře Dublinské iniciativy (opět v Dublinu) v září 1996 [WEIBEL, 1997a]. Jeho ústředním tématem byly obrazové informační zdroje zpřístupňované v prostředí Internetu a WWW. Diskuse byla zaměřena na řadu aspektů těchto zdrojů ve vztahu k jejich popisu v rámci specifikace DC. Metadata pro tento typ webových zdrojů, která měla jiný typ formátu než HTML, vyžadovala jiný prostor, než je samotný obrazový zdroj.

Záznamy se ukládaly zpravidla do interaktivních databázových souborů budovaných jako součást digitálních knihoven, které mohou být přes příslušné rozhraní na WWW propojeny. Jeden ze závěrů semináře byl podstatný: 13 dosavadních prvků nepostačovalo k popisu obrazových zdrojů. Podstatný údaj, který po diskusi přibyl do sestavy, byl údaj popis (Description), který je nutný k vyjádření jeho obsahu pro potřeby vyhledávání. Poslední údaj dnes známé „patnáctky“ Dublin Core, který přibyl taktéž v souvislosti s obrazovými zdroji, byl údaj práva (Rights), týkající se informací o autorských právech a různých omezeních využívání zdroje. Celá základní množina metadat Dublin Core byla po doplnění dvou nových údajů i nově uspořádána. Nesla označení DC, verze 1.0 a byla publikována na WWW v prosinci 1996. Během dalšího roku byly provedeny dílčí změny (soubor byl aktualizován). V září 1998 byla tato verze přijata jako internetový standard RFC 2413, jež je nyní už jako neplatná verze stále k dispozici na WWW [RFC 2413, 1998]. Čtvrtý pracovní seminář iniciativy DC se konal v Austrálii (Canberra) v březnu 1997. Zcela naplno se na tomto semináři projevily dvě tendence formování DC. Zastánci první tendence, označovaní jako „minimalisté“, prosazovali zachování stávající množiny definovaných prvků. Jejich požadavkem bylo zachování


 

maximální jednoduchosti formátu, tj. minimální počet prvků bez dalších dílčích specifikací (kvalifikátorů), protože jen tak lze vyhovět principům tvorby a užití metadat v prostoru WWW. Zastánci druhé tendence, označovaní jako „strukturalisté“, naopak, s vědomím komplikací, které mohou nastat při tvorbě a užití metadat v provozu na WWW včetně velkých nákladů, požadovali rozšíření definované množiny DC jednak co do počtu prvků, jednak co do kvalifikátorů. Řešení dané situace nebylo a není jednoduché a bude dáno až v budoucnu po získání dalších zkušeností z provozu prvních systémů [WEIBEL, 1997b].

Nicméně, canberrský seminář projednal návrh na podrobnější specifikaci DC pomocí tzv. kvalifikátorů (parametrů blíže určujících definované prvky). Šlo konkrétně o kvalifikátory:

Jazyk (Language), ve kterém byla hodnota údaje zapsána a uložena. Šlo o významný parametr vzhledem k mezinárodnímu charakteru budování webových systémů a služeb.

Schéma (Scheme), který udával model či způsob zápisu nebo i tvorby údaje. Užívání tohoto parametru bylo zpravidla vázáno na různé normy (např. ISO 8601 pro formu dat jako časových údajů, ISO 639 pro kódování jazyků, internetovou normu

MIME pro formáty souborů přenášených v rámci Internetu aj.) nebo známé řízené předmětové hesláře, tezaury či klasifikační schémata). V rámci komunikace metadat se předpokládalo odkazování takových externích zdrojů metadat, pokud byly dostupné na WWW, pomocí příslušné syntaxe formátu.

Typ (Type), který udával buď další parametr údaje (e-mail autora apod.) nebo dílčí typ údaje (autor-fyzická soba, autor- korporace aj.). Pro potřeby systémů užívajících specifikaci DC byla navržena provizorní pseudo-hierarchická tečkovací notace,

pomocí níž byly oddělovány dílčí údaje (v dokumentaci DC jsou označovány také anglickým výrazem „subelement“). Například:

<META NAME="DC.Creator.CorporateName.Address" CONTENT="uiskff-@ff.cuni.cz">

Jak je vidět z předchozího textu a ukázek příkladů, zabýval se australský seminář podrobněji i syntaxí zápisu kvalifikátorů. K výše uvedenému komentáři lze připojit ještě malou ukázku jednoho údaje zahrnujícího najednou všechny 3 typy kvalifikátorů:

<META NAME="DC.Subject" CONTENT="(SCHEME=LCSH) (LANG=EN) Metadata">

Problematika ze semináře v Austrálii byla dále rozvedena na 5. semináři konaném ve stejném roce (v říjnu 1997) v Helsinkách. Účastníci hodnotili již početné výsledky z provozu aplikací DC v prostoru WWW (např. viz výše komentovaný úspěšný Severský projekt metadat). Diskutovány byly opět otázky kvalifikátorů a zvláštní místo zaujaly dílčí specifikace údajů datum, pokrytí a vztah [WEIBEL, 1998]. Problematika dat jako časových údajů (např. jejich typologie, forma zápisu apod.) byla s ohledem na dynamický charakter webových zdrojů velmi obtížná. Speciální údaj o prostorovém a časovém pokrytí zdroje také doznal mnoho změn, v současné chvíli jsou navrhovány další dílčí specifikace. V rámci údaje o vazbách se řešila komplikovaná otázka vztahu digitálních zdrojů mezi sebou navzájem. Jak známo, identifikace vztahů je nesmírně náročná i pro profesionála, natož pro běžného uživatele, který má potřebu třeba jen citovat určitý dokument nebo jenom dílčí stránku. Jinak šlo samozřejmě také o otázku popisné jednotky. V terminologii DC se objevil tento problém pod výrazem „princip 1:1“. Konkrétně se problém týkal zejména popisu kolekcí webových stránek sdružených v rámci webových sídel, verzí dynamických digitálních dokumentů, multimediálních zdrojů apod. V rámci semináře v Helsinkách byly navrženy základní typy dílčích vztahů (relací).

Výsledkem helsinského semináře a následné diskuse příslušné pracovní skupiny bylo publikování materiálu ke kvalifikátorům jednotlivých prvků DC (materiál již není k dispozici na WWW). Nově byla navržena dokonce formalizovaná definice kvalifikátorů DC pro potřeby tvorby metadat DC v rámci schématu RDF [Dublin Core Metadata Initiative, 1997b, Appendix 2].

Jednou z důležitých otázek diskutovaných na 6. semináři DC, který se konal v listopadu 1998 ve Washingtonu, byla formalizace procesů, organizace a řízení Dublinské iniciativy (DCMI). DCMI se stala významným mezinárodním virtuálním společenstvím, jejímž posláním se stal rozvoj, standardizace a podpora souboru prvků DC. Od počátku roku 1999 bylo proto zahájeno postupné formování organizační struktury, které mělo být potvrzeno na 7. semináři v říjnu 1999 ve Frankfurtu nad Mohanem. Podle návrhu je DCMI celkově řízeno Ředitelstvím DCMI (DCMI Directorate), které sídlilo v rámci původné hostitelské organizace OCLC (nyní je v roli hostitelské organizace Korejská národní knihovna). Kromě jiného zajišťuje také webovou prezentaci (http://dublincore.org). Řízení a koordinaci normalizačních prací zajišťuje Výkonná skupina DC (DC Executive Group, DC-EG).

Poradní výbor Ředitelství DCMI (DC Advisory Committee, DC-AC), který je tvořen z reprezentantů různých systémů a služeb z celého světa, řídí práci tematických pracovních skupin DC, schvaluje jejich návrhy a spolupracuje s jinými mezinárodními aktivitami a organizacemi (W3C, IETF aj.). Důležitá činnost se odehrává v rámci řady pracovních skupin (DC Working Groups, DC-WG), které projednávají dílčí problémy rozvoje DC v rámci elektronických diskusních skupin i na seminářích. Základním produktem skupin jsou „pracovní návrhy“ (Working Draft), jež mohou po dalším projednávání v celkové diskusní skupině (DC General mail) a schválení v Poradním výboru nabýt povahy „návrhu doporučení“ (Proposed Recommendation) a konečného

„doporučení“ (Recommendation).

V červenci roku 1999 předložila DCMI odborné veřejnosti jako návrh doporučení revidovanou verzi základního souboru prvků Dublin Core, která nesla označení „verze 1.1“ (Version 1.1) [Dublin Core Metadata Initiative, 1999a]. Nešlo o verzi vyššího řádu, ale pouze o podstatnou formální úpravu, v rámci níž došlo ke zlepšení a zpřesnění definic jednotlivých prvků (údajů).

Předložená verze byla „oděna do nového kabátu“ - celý soubor je definován podle společné mezinárodní normy ISO/IEC 11179

„Specifikace a standardizace datových prvků“. Formalizace tohoto typu byla velice důležitá pro budoucí využívání metadat DC v reálném automatizovaném provozu na WWW. Návrh definic základních prvků byl v té chvíli k dispozici na WWW v rámci návrhu základního modelu DC-RDF [Dublin Core Metadata Initiative, Guidance, 1999b, Appendix 1]. Definice prvků musely podle zmíněné normy obsahovat celkem 10 položek:

1.  Jméno údaje

2. Identifikátor údaje jako jeho jedinečný kód pro automatizované zpracovávání

3. Verze definice údaje

4.  Úřad pro registraci údaje

5.  Jazyk, v němž je údaj vyjádřen

6. Vlastní definice údaje

7. Povinnost uvádění údaje

8. Typ údaje

9.  Maximální počet výskytů údaje

10.  Komentář k využití údaje

Ačkoliv od konání 6. semináře Dublin Core v prosinci 1998 byla vedena řada diskusí k možnostem rozšíření nebo přeuspořádání dosavadní sestavy údajů Dublin Core, odpovědní pracovníci v průběhu jara ujistili, že se žádné změny v tomto směru konat nebudou [WEIBEL, 1999]. Co do počtu definovaných údajů byl soubor totožný s verzí 1.0. Změny nastaly v definicích. O které podstatnější změny šlo? V následujícím přehledu jsou uvedeny v rámci komentářů k jednotlivým údajům (prvkům). Jako první je uveden vždy český překlad jména údaje, v kulaté závorce je jméno v anglickém originálu (podle verze 1.1 z července 1999); fráze uvedené v uvozovkách v kulatých závorkách jsou úplnými nebo dílčími citáty ze zveřejněného dokumentu [Dublin Core Metadata Initiative, 1999a]:

1.  Název (Title)


 

Tato nová definice je oproti původní zkrácená („jméno dané zdroji“); stanovení činitele (původně autor a vydavatel) procesu přidělování jména, tj. názvu zdroje, bylo zrušeno, nevyskytuje se ani v komentáři.

2. Tvůrce (Creator)

V rámci tohoto údaje došlo především ke změně jména údaje (původně „Autor nebo tvůrce“); po diskusích byl výraz „autor“ vyloučen též s ohledem na řadu nových aspektů, které autorská role u digitálních informačních zdrojů nabírá (platí zejména pro nově vzniklé typy); nová - a velmi progresivní je i nová definice údaje („entita primárně odpovědná za provedení obsahu zdroje“); z původní definice bylo vyloučeno slovo „intelektuální“, které bylo převzato z katalogizačních instrukcí, které však dnes již ne zcela koresponduje s novou situací; v komentáři přibývá ve výčtu tvůrců, vedle fyzické osoby a organizace, zcela nově položka „služba“ (služby, systémy apod.); kdo zná tehdejší web, jistě ocenil zařazení této potřebné položky; v komentáři se objevuje nová obecnější charakteristika tvůrců jakožto „entit“, ovlivněná též současnými novými náhledy na autorství v materiálech IFLA [Functional, 1999].

3. Předmět (Subject)

Původní definice byla přeformulována a podstatně zpřesněna („téma obsahu zdroje“), tj. přibylo velmi potřebné slovo „obsahu“, které tam původně nebylo.

4.  Popis (Description)

Nová definice byla více zobecněna („výčet obsahu zdroje“) a komentář podává více příkladů k užití tohoto údaje.

5. Vydavatel (Publisher)

Nová definice je oproti původní zkrácena („entita odpovědná za zpřístupnění zdroje“); komentář opět, jako v případě údaje

„tvůrce“, nově upřesňuje, že vydavatelem může být vedle fyzické osoby a organizace také služba (služby, systémy apod.).

6. Přispěvatel (Contributor)

Stejně jako v případě údaje „tvůrce“, došlo i u tohoto údaje ke změně jména, i když jenom formální - byl vypuštěn zbytečný výraz „další“; definice údaje je však přepracována podstatně („entita odpovědná za provedení příspěvku k obsahu zdroje“); výraz o „významném intelektuálním příspěvku“ přispěvatele byl zrušen; komentář k definici rovněž doplňuje ve výčtu příkladů službu (služby, systém), která také může být v této roli.

7. Datum (Date)

Původní definice je zcela přepracována, a to na základě rozsáhlé diskuse v pracovních skupinách („datum spojené s nějakou událostí v životním cyklu zdroje“); v definici se odráží charakteristický rys digitálních zdrojů, které jsou u řady typů velmi dynamické (včetně písemných dokumentů); doporučení pro užívání normy ISO 8601 zůstalo nezměněno.

8.  Typ (Type)

Definice v nové verzi dosáhla sice jistého pokroku - je více zobecněná („povaha nebo žánr obsahu zdroje“), je však stále diskutabilní; určitě by mohla být dále zpřesňována; jak napovídá elektronická diskuse v příslušné pracovní skupině, došlo během posledního roku k dalším změnám ve výčtu jednotlivých typů (stav z roku 1998 byl komentován v časopise Národní knihovna [BRATKOVÁ, 2005, část 4].

9. Formát (Format)

Rovněž v případě formátu digitálních zdrojů došlo k upřesnění definice („fyzická nebo digitální manifestace zdroje); formulace definice je, kromě jiného, ovlivněna současnými náhledy a závěry IFLA k problematice informačních zdrojů a dokumentů, které byly často v diskusích brány v potaz; komentář k definici doplňuje některé další údaje, jako jsou např. rozměry, potřebné pro popis některých typů informačních zdrojů (obrazové, trojrozměrné apod.).

10.  Identifikátor (Identifier)

V definici tohoto údaje, který hraje v rámci architektury současné i budoucí webové komunikace velkou úlohu, došlo ke zpřesnění definice („jednoznačný odkaz na zdroj v rámci daného kontextu“); komentář doplňuje příklady o identifikátor DOI (Digital Object Indentifier).

11.  Zdroj (Source)

Ačkoliv se kolem tohoto údaje v poslední době rozproudila velká diskuse (zdálo se, že údaj bude sloučen s údajem „vztah“), nakonec k tomu nedošlo a zůstává i nadále v celé sestavě. Jeho definice byla mírně upravena („odkaz na zdroj, ze kterého byl popisovaný zdroj odvozen“).

12.  Jazyk (Language)

Definice údaje je nezměněna, komentář ovšem upřesňuje odkazy na normy, které jsou doporučeny k využívání; zpřesněny jsou dílčí instrukce.

13.  Vztah (Relation)

Definice tohoto údaje je upřesněna („odkaz na příbuzné zdroje“), tj. původní termín „souvislost s dalšími zdroji“ byl nahrazen přesnějším termínem „odkaz na zdroje“.

14.  Pokrytí (Coverage)

Definice tohoto speciálního údaje byla zobecněna („rozsah nebo záběr zdroje“), rovněž tak komentář obsahuje přesnější specifikaci a příklady.

15.  Práva (Rights)

Základní definice tohoto posledního údaje byla také upřesněna („informace o právech udržovaná ve zdroji nebo mimo něj“).

Pracovní návrh nové verze specifikace Dublin Core (verze 1.1) byl po diskusi 9. září 1999 ustanoven jako definitivní doporučení.

Plné znění tohoto textu je k dispozici na adrese: <http://purl.org/dc/documents/rec-dces-19990702.htm>.

2.1.3  Aktuální stav schématu DC

Nejnovější verze Dublin Core (stále ale verze 1.1) pochází z 14. června 2012 jako doporučení DCMI (DCMI Recommendation). Je k dispozici jednak jako samostatná metadatová specifikace (zkráceně DCES, http://dublincore.org/documents/2012/06/14/dces/ nebo http://dublincore.org/documents/dces/), jednak jako součást širšího slovníku termínů (zkráceně DCTERMS, http://dublincore.org/dc/terms/)

Specifikace Dublin Core je kodifikována v aktuální verzie RFC 5013, která pochází z roku 2007 [RFC 5013, 2007]. Metadata DC jsou v současné době také kodifikována jako technická americká norma ANSI/NISO Z39.85 [ANSI/NISO Z39.85:2007]. Na mezinárodní úrovni byla specifikace Dublin Core publikována jako noma ISO 15836: v prvním vydání v roce 2003 [ISO 15836:2003] a ve druhém vydání v roce 2009 [ISO 15836:2009] včetně dodatečné opravy 1 [ISO 15836/Cor 1:2009].

Aktuální verze přináší opravené definice, vykazují zestručnění. Přehled identifikátorů URI jednotlivých prvků specifikace DC: URI: http://purl.org/dc/elements/1.1/title

URI: http://purl.org/dc/elements/1.1/creator URI: http://purl.org/dc/elements/1.1/subject URI: http://purl.org/dc/elements/1.1/description URI: http://purl.org/dc/elements/1.1/publisher URI: http://purl.org/dc/elements/1.1/contributor


 

URI: http://purl.org/dc/elements/1.1/date URI: http://purl.org/dc/elements/1.1/type URI: http://purl.org/dc/elements/1.1/format URI: http://purl.org/dc/elements/1.1/identifier URI: http://purl.org/dc/elements/1.1/source URI: http://purl.org/dc/elements/1.1/language URI: http://purl.org/dc/elements/1.1/relation URI: http://purl.org/dc/elements/1.1/coverage URI: http://purl.org/dc/elements/1.1/rights Aktuálně platné definice jednotlivých prvků

dc:title (název), URI: http://purl.org/dc/elements/1.1/title

Aktuální definice: „jméno dané zdroji“ (v komentáři: může jít například o jméno, pod kterým je zdroj formálně znám).

dc:creator (tvůrce), URI: http://purl.org/dc/elements/1.1/creator

Aktuální definice:„entita primárně odpovědná za provedení zdroje“ (v komentáři: nějaká fyzická osoba, organizace nebo služba (služba, systém apod.)).

dc:subject (předmět), URI: http://purl.org/dc/elements/1.1/subject

Aktuální definice: „téma zdroje“ (v komentáři: téma může být reprezentováno pomocí klíčových slov, klíčových frází, klasifikačních kódů aj.; doporučeno je užívání řízených slovníků).

dc:description (popis), URI: http://purl.org/dc/elements/1.1/description

Aktuální definice: „osvětlení zdroje“ (v komentáři: popis může zahrnovat abstrakt, obsah, grafickou reprezentaci, anebo osvětlení zdroje pomocí volného textu).

dc:publisher(vydavatel), URI: http://purl.org/dc/elements/1.1/publisher

Aktuální definice: „entita odpovědná za zpřístupnění zdroje“ (v komentáři: nějaká fyzická osoba, organizace nebo služba (služba, systém apod.)).

dc:contributor (přispěvatel), URI: http://purl.org/dc/elements/1.1/contributor

Aktuální definice: „entita odpovědná za provedení příspěvku do zdroje“ (v komentáři nějaká fyzická osoba, organizace nebo služba (služba, systém apod.)).

dc:date (datum), URI: http://purl.org/dc/elements/1.1/date

Aktuální definice: „určitá doba nebo časové období spojené s nějakou událostí v životním cyklu zdroje“ (v komentáři: datum může být užit k vyjádření časové informace na jakékoliv úrovni granularity, doporučení pro užívání normy ISO 8601, tj. profilu W3CDTF, [W3CDTF] http://www.w3.org/TR/NOTE-datetime).

dc:type (typ), URI: http://purl.org/dc/elements/1.1/type

Aktuální definice: „povaha nebo žánr zdroje“ (v komentáři: doporučeno je využívání řízeného slovníku DCMI (Type Vocabulary, DCMITYPE), http://dublincore.org/documents/dcmi-type-vocabulary/.

dc:format (formát), URI: http://purl.org/dc/elements/1.1/format

Aktuální definice: „formát souboru, fyzické médium nebo rozměr zdroje“ (v komenáři: příkladem rozměru zdroje může být velikost souboru, doba trvání nahrávky apod.; doporučeno je užívání řízených slovníků, zejména typologie MIME, http://www.iana.org/assignments/media-types/index.html).

dc:identifier (identifikátor), URI: http://purl.org/dc/elements/1.1/identifier

Aktuální definice: „jednoznačný odkaz na zdroj v rámci daného kontextu“ (v komentáři doporučeno užívání některého z identifikačních systémů).

dc:source (původní zdroj), URI: http://purl.org/dc/elements/1.1/source

Aktuální definice: „nějaký související zdroj, ze kterého byl popisovaný zdroj odvozen“ (v komentáři: doporučeno užívání některého z identifikačních systémů).

dc:language (jazyk), URI: http://purl.org/dc/elements/1.1/language

Aktuální definice: „jazyk zdroje“ (v komentáři: doporučeno je využívání řízeného slovníku [RFC4646] http://www.ietf.org/rfc/rfc4646.txt)

dc:relation (vztah), URI: http://purl.org/dc/elements/1.1/relation

Aktuální definice: „příbuzný zdroj“ (v komentáři: doporučeno užívání některého z identifikačních systémů).

dc:coverage (pokrytí), URI: http://purl.org/dc/elements/1.1/coverage

Aktuální definice: „prostorové nebo časové téma zdroje, prostorová aplikovatelnost zdroje nebo jurisdikce, ke které zdroj náleží“ (v komentáři: prostorové téma a prostorová aplikovatelnost mohou být nějakým pojmenovaným místem nebo lokalitou, která je specifikována svými souřadnicemi; časové téma může být pojmenovanou dobou, datem nebo intervalem dat. Jurisdikce může být pojmenovanou administrativní entitou nebo zeměpisným místem, ke kterému se zdroj váže; doporučeným způsobem je využití řízených slovníků, jako je například Tezaurus geografických jmen (Thesaurus of Geographic Names [TGN], http://www.getty.edu/research/tools/vocabulary/tgn/index.html). Tam kde je to vhodné, mohou být pojmenovaná místa a časová období užita prioritně před číselnými identifikátory, jak například soubory souřadnic nebo řadou dat.

dc:rights (práva), URI: http://purl.org/dc/elements/1.1/rights

Aktuální definice: „informace o právech udržovaná ve zdroji nebo mimo něj“ (v komentáři: různorodé systémy práv spojené se zdrojem).

Na Obr. č. 4 je záznam disertační práce ve specifikaci nekvalifikovaný Dublin Core. Byl získán z institucionálního archivu Massachusettského technologického institutu (MIT) pomocí protokolu OAI-PMH (formát: oai_dc; příkaz Get record): http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai%3Adspace.mit.edu%3A1721.1%2F4 3074

<?xml version="1.0" encoding="UTF-8" ?>

-  <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema- instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">

<responseDate>2012-07-13T09:48:20Z</responseDate>

<request identifier="oai:dspace.mit.edu:1721.1/43074" metadataPrefix="oai_dc" verb="GetRecord">http://dspace.mit.edu/oai/request</request>

-  <GetRecord>

-  <record>

-  <header>

<identifier>oai:dspace.mit.edu:1721.1/43074</identifier>

<datestamp>2012-06-15T15:36:54Z</datestamp>


 

<setSpec>hdl_1721.1_7663</setSpec>

<setSpec>hdl_1721.1_7817</setSpec>

</header>

-  <metadata>

-  <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">

<dc:title>A context-sensitive meta-classifier for color-naming</dc:title>

<dc:creator>Kubat, Rony Daniel</dc:creator>

<dc:subject>Electrical Engineering and Computer Science.</dc:subject>

<dc:description>Humans are sensitive to situational and semantic context when applying labels to colors. This is especially challenging for algorithms which

attempt to replicate human categorization for communicative tasks. Additionally, mismatched color models between dialog partners can lead to a back-and-forth negotiation of terms to find common ground. This thesis presents a color-classification algorithm that takes advantage of a dialog-like interaction model to provide fast- adaptation for a specific exchange. The model learned in each exchange is then integrated into the system as a whole. This algorithm is an incremental meta-learner, leveraging a generic online-learner and adding context- sensitivity. A human study is presented, assessing the extent of semantic contextual effects on color naming. An evaluation of the algorithm based on the corpus gathered in this experiment is then tendered.</dc:description>

<dc:description>by Rony Daniel Kubat.</dc:description>

<dc:description>Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2008.</dc:description>

<dc:description>Includes bibliographical references (p. 93-97).</dc:description>

<dc:publisher>Massachusetts Institute of Technology</dc:publisher>

<dc:contributor>Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science.</dc:contributor>

<dc:contributor>Deb K. Roy.</dc:contributor>

<dc:date>2008-11-07T18:59:12Z</dc:date>

<dc:date>2008-11-07T18:59:12Z</dc:date>

<dc:date>2008</dc:date>

<dc:date>2008</dc:date>

<dc:type>Thesis</dc:type>

<dc:format>97 p.</dc:format>

<dc:identifier>http://hdl.handle.net/1721.1/43074</dc:identifier>

<dc:identifier>244251133</dc:identifier>

<dc:language>eng</dc:language>

<dc:rights>M.I.T. theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. See provided URL for inquiries about permission.</dc:rights>

<dc:rights>http://dspace.mit.edu/handle/1721.1/7582</dc:rights>

</oai_dc:dc>

</metadata>

</record>

</GetRecord>

</OAI-PMH>

Obr. č. 4: metadatový záznam disertace z institucionálního archivu DSpace at MIT ve formátu oai_dc (DCES, version 1.1) [získáno pomocí protokolu OAI-PMH, příkazem GetRecord, 2012]

Slovník metadatových termínů DCMI (DCMI Metadata Terms, DCTERMS, http://purl.org/dc/terms/, http://dublincore.org/schemas/xmls/qdc/dcterms.xsd) zahrnuje, vedle základních 15 prvků (jsou označeny žlutým fixem) sady Dublin Core, dalších 40 jemnějších prvků:

abstract , accessRights , accrualMethod , accrualPeriodicity , accrualPolicy , alternative , audience , available , bibliographicCitation , conformsTo , contributor , coverage , created , creator , date , dateAccepted , dateCopyrighted , dateSubmitted , description , educationLevel , extent , format , hasFormat , hasPart , hasVersion , identifier , instructionalMethod , isFormatOf , isPartOf , isReferencedBy , isReplacedBy , isRequiredBy , issued , isVersionOf , language , license , mediator , medium , modified , provenance , publisher , references , relation , replaces , requires , rights , rightsHolder

, source , spatial , subject , tableOfContents , temporal , title , type , valid

2.2  Metadatové schéma nezávislých hlaviček TEI

Tvůrcem významné specifikace pro kódování úplných elektronických textů všech typů se zaměřením na detailní textový rozbor

TEI (Text Encoding Initiative) včetně metadatového schématu tzv. nezávislých hlaviček TEI (TEI Independent Headers,

<teiHeader>) je v současné době Konsorcium TEI (TEI Consortium, http://www.tei-c.org/index.xml) se sídlem v Charlottesville v americké Virginii [TEI Consortium, 2012a]. Jde o neziskovou organizaci, jejímiž členy jsou významné akademické instituce, ale také jednotlivci. Členové se podílejí na chodu Konsorcia finančně a mají právo volit své zástupce do správní rady Konsorcia. Rada má významnou pravomoc při schvalování nových řad a verzí známé specifikace „TEI Guidelines“, která je souborem obecných zásad které specifikují metody kódování elektronického textu zejména v oblasti humanitních a společenských věd včetně lingvistiky.

Specifikace TEI vznikla v rámci výzkumného projektu v letech 1987-1994 ve Virginii (USA). Dokumentace k celé specifikaci čítá v její poslední verzi ze 17. června 2012 „TEI P5: Guidelines for Electronic Text Encoding and Interchange“ více než 1550 stran textu [TEI Consortium, 2012b]. Povinnou součástí celé specifikace jsou však hlavičky TEI (TEI Headers), které jsou v současnosti metadatovým schématem ve struktuře XML, určeným k popisu digitalizovaných textů. Specifikace předpokládá, že hlavičky TEI s metadaty mohou být buď součástí textu samotného (proto ho může tvořit i autor nebo vydavatel), mohou však být vytvářeny a ukládány odděleně do databází záznamů v rámci budovaných digitálních archivů nebo knihoven digitalizovaných textů, jako je například britský archiv OTA (OTA Archive, http://www.ota.ox.ac.uk/), ze kterého pochází i volně dostupný metadatový záznam hlavičky TEI zobrazený na obr. č. 6 (http://www.ota.ox.ac.uk/text/3010.xml). Hlavičky TEI lze využít i pro popis síťově dostupných zdrojů.


 

Základní specifikace metadat hlaviček TEI popisu textových zdrojů je co do množství údajů velmi bohatá (výchozí základnou jsou americká katalogizační pravidla AACR2), je však přípustné definovat i množinu menší (podle potřeb dané aplikace).

Základní specifikace metadat hlaviček TEI popisu textových zdrojů je co do množství údajů velmi bohatá (výchozí základnou jsou americká katalogizační pravidla AACR2), je však přípustné definovat i množinu menší (podle potřeb dané aplikace).

Obr. č. 5: zkrácený metadatový záznam české elektronické knihy ve schématu TEI Headers (XML)se čtyřmi základními částmi [převzat printscreenem z archivu OTA v lednu 2012]

Struktura hlavičky TEI může mít celkově 4 části (viz Obr. č. 5 a Obr. č. 6):

1.  Popis celého souboru (file description, <fileDesc>)

2. Popis kódování (encoding description), <encodingDesc>)

3.  Popis profilu textu (text profile, <profileDesc>)

4. Popis o vývoji revize (revision history, <revisionDesc>.

<?xml version="1.0" encoding="UTF-8" ?>

-  <TEI xmlns="http://www.tei-c.org/ns/1.0">

-  <teiHeader>

-  <fileDesc>

-  <titleStmt>

<title type="main">Osudy dobrého vojáka Svejka za svetové války</title>

<title type="parallel" xml:lang="en">The Good Soldier Schweik</title>

<author>Hašek, Jaroslav, 1883-1923</author>

-  <respStmt>

<resp>creation of machine-readable version</resp>

<name>Kucera, Karel</name>

</respStmt>

</titleStmt>

- <publicationStmt>

- <authority>

deposited by

<name type="person">Kucera, Karel</name>

<name type="department">Czech National Corpus Institute</name>

<name type="institution">Charles University. Faculty of Arts</name>

<name type="place">Praha</name>

- <address>

<addrLine>Czech National Corpus Institute</addrLine>

<addrLine>Charles University. Faculty of Arts</addrLine>

<addrLine>Na’mesti’ Palacha 2</addrLine>

<addrLine>11638 Praha 1, Czech Republic</addrLine>

<addrLine />

</address>

<email>ucnk@ff.cuni.cz</email>

<email>karel.kucera@ff.cuni.cz</email>

<date>2002-01-28</date>

</authority>

- <distributor>

<name>University of Oxford Text Archive</name>

- <address>

<addrLine>Oxford University Computing Services</addrLine>

<addrLine>13 Banbury Road</addrLine>

<addrLine>Oxford</addrLine>

<addrLine>OX2 6NN</addrLine>

</address>

<email>ota@oucs.ox.ac.uk</email>


 

</distributor>

<idno type="ota">http://ota.ox.ac.uk/id/3010</idno>

<idno type="isbn10">1106000099</idno>

<idno type="isbn13">9781106000095</idno>

- <availability status="restricted">

<licence target="http://creativecommons.org/licenses/by-sa/3.0/">Distributed by the University of Oxford under a Creative Commons Attribution-ShareAlike 3.0 Unported License</licence>

</availability>

</publicationStmt>

- <sourceDesc>

- <bibl>

Revised version of

<relatedItem type="older" target="http://ota.ox.ac.uk/id/2452" />

</bibl>

-  <biblFull>

-  <titleStmt>

<title>Osudy dobrého vojáka Svejka za svetové války</title>

<title type="parallel">The Good Soldier Schweik</title>

<title type="alternative">The good soldier Svejk</title>

<author>Hašek, Jaroslav, 1883-1923</author>

</titleStmt>

- <publicationStmt>

<publisher>Baronet</publisher>

<pubPlace>Praha</pubPlace>

<date>1996</date>

<idno type="isbn">8085890593</idno>

</publicationStmt>

</biblFull>

</sourceDesc>

</fileDesc>

- <encodingDesc>

- <classDecl>

-  <taxonomy xml:id="OTASH">

<bibl>University of Oxford Text Archive Subject Headings</bibl>

</taxonomy>

-  <taxonomy xml:id="LCSH">

<bibl>Library of Congress Subject Headings</bibl>

</taxonomy>

</classDecl>

</encodingDesc>

-  <profileDesc>

- <creation>

<date notAfter="1923" />

</creation>

-  <langUsage>

<language ident="ces">Czech</language>

</langUsage>

-  <textClass>

- <keywords scheme="#LCSH">

<term type="genre">Czech fiction -- 20th century</term>

</keywords>

</textClass>

</profileDesc>

- <revisionDesc>

<change when="2010-08-31">Header normalised</change>

Obr. č. 6: úplný metadatový záznam české elektronické knihy ve schématu TEI Headers (XML) [převzat z archivu OTA v lednu 2012, http://www.ota.ox.ac.uk/text/3010.xml]

2.3  Metadatové schéma MARCXML

Výměnný (komunikativní) formát MARC 21,13 který je využíván pro výměnu bibliografických záznamů tradičních i elektronických dokumentů (též záznamů autoritních) v knihovnickém sektoru po celém světě na čele s Kongresovou knihovnou ve Washingtonu (LC, udržuje ho na svém serveru, http://www.loc.gov/marc/) [Library of Congress, 2012b], je označován přívlastkem „harmonizační formát“. Vznikl v roce 2000 na základě dohody Kongresové knihovny a Kanadské národní knihovny o sloučení bývalých národních formátů USMARC a CAN/MARC [TAYLOR, 2004, s. 76-77]. V roce 2001 přistoupila na tento formát i Britská knihovna (užívala do té doby svůj formát UKMARC) a po ní další knihovny (také Národní knihovna ČR). Formát MARC 21 je založen na struktuře kodifikované americkou technickou normou ANSI/NISO Z39.2 (American National Standard for Bibliographic Information Interchange, 1971, rev. 1985) a také mezinárodní normou ISO 2709:1996 (Information and Documentation – Format for Information Exchange, 3rd ed.).

Již v polovině 90. let ale Kongresová knihovna pod vlivem nového rozvoje informačních technologií připravila definiční tabulku MARC-SGML DTD (Document Type Definitions) k podpoře oboustranné konverze záznamu z formátu MARC do moderní struktury SGML (Standard Ggeneralized Markup Language). Cílem byla možnost automaticky převádět a komunikovat bibliografické či katalogizační a jiné záznamy v rámci moderních informačních systémů v prostředí webu. Později vznikla jednodušší varianta definiční tabulky MARC-XML DTD [TAYLOR, 2004, s. 85-89]. Její přepracovaná (a upravená) verze byla jako inovované

metadatové schéma MARCXML po přípravách zveřejněna v roce 2003 [Library of Congress, 2012c]. Struktura schématu MARCXML je definována pomocí souboru XSD (http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd).

Definovány byly přesněji dvě tabulky, jedna pro bibliografické záznamy (a také záznamy vlastnictví a komunit), druhá pro záznamy autoritní (a také záznamy klasifikačních soustav). Součástí tabulek jsou všechny údaje (prvky) formátu MARC s


 

přesnou specifikací jejich kódování ve značkách jazyka XML. Každá značka záznamu XML obsahuje příslušné návěští pole (tag) formátu MARC, indikátory i kódy podpolí, jsou-li definovány.

Definované metadatové schéma MARCXML zahrnuje tři typy prvků:

<leader>

Prvek „Návěští“ záznamu zahrnuje, stejně jako formát MARC 21, přesně 24 znaků (pevná délka) s kódovanými údaji, které se týkající se celého záznamu (měrné informace, strukturní informace a výběr určitých bibliografických informací)

<controlfield>

Prvek „Kontrolní pole“ je určen pro řadu polí formátu MARC 21 s návěštím pole 00X. Jde o kódované informace týkající se popisovaného dokumentu včetně identifikačních čísel a datací. Prvek nezahrnuje žádná podpole. Číslo konkrétního pole (jako hodnota) je uvedeno v rámci jediného definovaného atributu „tag“.

<datafield>

Prvek „Datové pole“ je určen pro všechna další pole formátu MARC 21. Jde o podrobné popisné a jiné údaje týkající se popisovaného dokumentu. Číslo konkrétního pole (jako hodnota) je uvedeno v rámci definovaného atributu „tag“ a hodnoty atributů v atributech „ind1“ a „ind2“. Údaje podpolí formátu MARC 21 jsou zahrnuty ve vnořovaném prvku <subfield>, hodnota kódu podpole je uvedena v atributu „code“.

Obr. č. 7: záznam knihy v řádkovém formátu MARC 21 [převzat z katalogu Kongresové knihovny v lednu 2012]

Záznamy vytvořené ve schématu MARCXML je možné stoprocentně konvertovat do formátu MODS, záznamy vytvořené přímo ve schématu MODS je ale možné konvertovat do schématu MARCXML už se ztrátami určitých informací. Kongresová knihovna připravila pro uživatele celého světa automatické konverze záznamů z formátu MARC 21 do schématu MARCXML, MODS a Dublin Core v rámci svého katalogu. Každá záznam má svoji trvalou URL adresu (Permalink), takže je možné tyto záznamy bezproblémově hyperlinkovat odkudkoliv z webu. Příkladový záznam z katalogu LC (Permalink: http://lccn.loc.gov/99014773) známé knihy W. Y Armse o digitálních knihovnách je ve formátu MARC 21 (řádková prezentace) na obr. č. 7. Jeho reprezentace ve struktuře MARCXML (Permalink: http://lccn.loc.gov/99014773/marcxml) je na obr. č. 8.

<?xml version="1.0" encoding="UTF-8" ?>

- <record xmlns="http://www.loc.gov/MARC21/slim" xmlns:cinclude="http://apache.org/cocoon/include/1.0" xmlns:zs="http://www.loc.gov/zing/srw/">

<leader>01198cam a2200301 a 4500</leader>

<controlfield tag="001">4520689</controlfield>

<controlfield tag="005">20050818172955.0</controlfield>

<controlfield tag="007">cr |||||||||||</controlfield>

<controlfield tag="008">990310s2000 maua b 001 0 eng</controlfield>

-  <datafield tag="035" ind1="" ind2="">

<subfield code="9">(DLC) 99014773</subfield>

</datafield>

-  <datafield tag="906" ind1="" ind2="">

<subfield code="a">7</subfield>

<subfield code="b">cbc</subfield>

<subfield code="c">orignew</subfield>

<subfield code="d">1</subfield>

<subfield code="e">ocip</subfield>

<subfield code="f">19</subfield>

<subfield code="g">y-gencatlg</subfield>

</datafield>

-  <datafield tag="955" ind1="" ind2="">

<subfield code="a">pc03 to ja00 03-10-99; lj11 to subj. 03-11-99; lj07 03-16-99; lk02 03-17-99; AA3d lk25 received for CIP verification Jul 6, 2000; lk18 07-07-00; to BCCD 07-07-00</subfield>

</datafield>

-  <datafield tag="010" ind1="" ind2="">

<subfield code="a">99014773</subfield>

</datafield>

-  <datafield tag="020" ind1="" ind2="">

<subfield code="a">0262011808 (alk. paper)</subfield>

</datafield>

-  <datafield tag="040" ind1="" ind2="">

<subfield code="a">DLC</subfield>

<subfield code="c">DLC</subfield>


 

<subfield code="d">DLC</subfield>

</datafield>

-  <datafield tag="043" ind1="" ind2="">

<subfield code="a">n-us---</subfield>

</datafield>

- <datafield tag="050" ind1="0" ind2="0">

<subfield code="a">Z692.C65</subfield>

<subfield code="b">A76 2000</subfield>

</datafield>

- <datafield tag="082" ind1="0" ind2="0">

<subfield code="a">025/.00285</subfield>

<subfield code="2">21</subfield>

</datafield>

-  <datafield tag="100" ind1="1" ind2="">

<subfield code="a">Arms, William Y.</subfield>

</datafield>

-  <datafield tag="245" ind1="1" ind2="0">

<subfield code="a">Digital libraries /</subfield>

<subfield code="c">William Y. Arms.</subfield>

</datafield>

- <datafield tag="260" ind1="" ind2="">

<subfield code="a">Cambridge, Mass. :</subfield>

<subfield code="b">MIT Press,</subfield>

<subfield code="c">c2000.</subfield>

</datafield>

- <datafield tag="300" ind1="" ind2="">

<subfield code="a">x, 287 p. :</subfield>

<subfield code="b">ill. ;</subfield>

<subfield code="c">24 cm.</subfield>

</datafield>

-  <datafield tag="440" ind1="" ind2="0">

<subfield code="a">Digital libraries and electronic publishing</subfield>

</datafield>

-  <datafield tag="504" ind1="" ind2="">

<subfield code="a">Includes bibliographical references and index.</subfield>

</datafield>

-  <datafield tag="530" ind1="" ind2="">

<subfield code="a">Also available in electronic form on the author's Web site.</subfield>

</datafield>

-  <datafield tag="650" ind1="" ind2="0">

<subfield code="a">Libraries</subfield>

<subfield code="z">United States</subfield>

<subfield code="x">Special collections</subfield>

<subfield code="x">Electronic information resources.</subfield>

</datafield>

-  <datafield tag="650" ind1="" ind2="0">

<subfield code="a">Digital libraries</subfield>

<subfield code="z">United States.</subfield>

</datafield>

-  <datafield tag="856" ind1="4" ind2="1">

<subfield code="u">http://www.cs.cornell.edu/wya/DigLib/</subfield>

</datafield>

</record>

Obr. č. 8: záznam knihy ve struktuře MARCXML [převzat z katalogu Kongresové knihovny v lednu 2012]

2.4  Metadatové schéma MODS

Metadatové schéma pro popis objektů MODS (angl. Metadata Object Description Schema) je schématem, které bylo vytvořeno a je udržováno, stejně jako metadatové schéma MARCXML, Kongresovou knihovnou ve Washingtonu na jejím serveru (http://www.loc.gov/standards/mods/) [Library of Congress, 2012e]. Jde o derivát známého formátu MARC 21 [Understanding metadata, 2004], jehož specifickou vlastností je, že definované prvky, jichž je podstatně méně ve srovnání s formátem MARC, mají slovní pojmenování. Schéma MODS je primárně určeno pro potřeby klasických knihoven, je však široce využíváno také v oblasti digitálních knihoven včetně elektronických archivů v oblasti vědy a výzkumu. Metadatové schéma MODS zahrnuje množinu prvků, pomocí kterých lze popsat jakýkoliv informační objekt (knihu, videozáznam, online webový zdroj apod.). Pro potřeby snadné komunikace metadat v počítačových systémech a sítích je schéma MODS, stejně jako schéma MARCXML nebo schéma METS, vyjádřeno pomocí jazyka XML. Realizace konverzí z formátu MARC nebo schématu Dublin Core do schématu MODS je bezproblémově možná (na serveru Kongresové knihovny jsou k dispozici převodníky). Převod ze schématu MODS do formátu MARC znamená určitou ztrátu dat.

První verze metadatového schématu MODS (2.0) byla zpřístupněna na začátku roku 2002 [TAYLOR, 2004, s. 87-89]. V průběhu dalších let bylo schéma rozvíjeno, přibyly postupně některé nové prvky (elements), jejich podprvky (subelements) druhé i třetí úrovně a také atributy (attributes) včetně seznamů autorizovaných hodnot pro některé prvky. V roce 2003 vznikla verze 3.0, v roce 2005 verze 3.1, v roce 2006 verze 3.2, v roce 2008 verze 3.3 (viz příklad na obr. č. 9), v současné době je k dispozici verze nejnovější 3.4 z 10. 6. 2010. Struktura záznamu MODS (XML), která stanovuje, jaké prvky záznam může mít, jaký mohou mít výskyt, jak se mohou vnořovat do jiných prvků a popřípadě stanovuje také obsahy hodnot prvků, je definována pomocí souboru XSD (http://www.loc.gov/standards/mods/mods.xsd) nebo přesněji pro verzi 3.4

(http://www.loc.gov/standards/mods/v3/mods-3-4.xsd).


 

Sémantika definovaných prvků může být podle potřeb producenta dat zajišťována na základě libovolných pravidel popisu, ale v profesionální rovině (i z důvodu případných konverzí do jiných formátů či schémat) se doporučuje zásadně využití standardu AACR2 (Anglo-American Cataloging Rules). Potřebná interpunkce je zajišťována automatickým generováním.

Metadatový záznam MODS je uveden kořenovým prvkem <mods> (viz příklad na obr. č. 9), popř. prvkem <modsCollection> (pro soubor záznamů MODS, z nichž každý je uzavřen v kořenovém prvku <mods>). V rámci kořenového prvku jsou v atributu xmlns specifikované adresy URL všech schémat, podle kterých je celý metadatový záznam vytvořen. Uveden je také údaj o použité verzi schématu. Metadatové schéma zahrnuje i ve verzi 3.4 stále 20 hlavních prvků (první úrovně):

<titleInfo>

<name>

<typeOfResource>

<genre>

<originInfo>

<language>

<physicalDescription>

<abstract>

<tableOfContents>

<targetAudience>

<note>

<subject>

<classification>

<relatedItem>

<identifier>

<location>

<accessCondition>

<part>

<extension>

<recordInfo>

Příklady z reálné praxe obsahují zpravidla méně prvků (viz obr. č. 9). Všechny prvky první úrovně schématu MODS i jejich atributy jsou volitelné, jeden prvek ale musí vždy existovat. Podprvky jsou volitelné. Prvky jsou v zásadě opakovatelné.

Podprvky se musí řadit v daném pořadí, atributy nikoliv a jsou navíc neopakovatelné.

Příkladový záznam z katalogu LC (Permalink: http://lccn.loc.gov/99014773) známé knihy W. Y Armse o digitálních knihovnách ve struktuře MODS (Permalink: http://lccn.loc.gov/99014773/mods) je na obr. č. 9.

<?xml version="1.0" encoding="UTF-8" ?>

- <mods xmlns="http://www.loc.gov/mods/v3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-3.xsd" version="3.3">

- <titleInfo>

<title>Digital libraries</title>

</titleInfo>

-  <name type="personal">

<namePart>Arms, William Y.</namePart>

- <role>

<roleTerm type="text" authority="marcrelator">creator</roleTerm>

</role>

</name>

<typeOfResource>text</typeOfResource>

<genre authority="marcgt">bibliography</genre>

-  <originInfo>

-  <place>

<placeTerm type="code" authority="marccountry">mau</placeTerm>

</place>

-  <place>

<placeTerm type="text">Cambridge, Mass</placeTerm>

</place>

<publisher>MIT Press</publisher>

<dateIssued>c2000</dateIssued>

<dateIssued encoding="marc">2000</dateIssued>

<issuance>monographic</issuance>

</originInfo>

-  <language>

<languageTerm type="code" authority="iso639-2b">eng</languageTerm>

</language>

- <physicalDescription>

<form authority="marcform">print</form>

<extent>x, 287 p. : ill. ; 24 cm.</extent>

</physicalDescription>

<note type="statement of responsibility">William Y. Arms.</note>

<note type="bibliography">Includes bibliographical references and index.</note>

<note type="additional physical form">Also available in electronic form on the author's Web site.</note>

- <subject>

<geographicCode authority="marcgac">n-us---</geographicCode>

</subject>

-  <subject authority="lcsh">

<topic>Libraries</topic>

<geographic>United States</geographic>

<topic>Special collections</topic>


 

<topic>Electronic information resources</topic>

</subject>

-  <subject authority="lcsh">

<topic>Digital libraries</topic>

<geographic>United States</geographic>

</subject>

<classification authority="lcc">Z692.C65 A76 2000</classification>

<classification authority="ddc" edition="21">025/.00285</classification>

- <relatedItem type="series">

- <titleInfo>

<title>Digital libraries and electronic publishing</title>

</titleInfo>

</relatedItem>

<identifier type="isbn">0262011808 (alk. paper)</identifier>

<identifier type="lccn">99014773</identifier>

- <location>

<url displayLabel="electronic resource" usage="primary display">http://www.cs.cornell.edu/wya/DigLib/</url>

</location>

- <recordInfo>

<descriptionStandard>aacr2</descriptionStandard>

<recordContentSource authority="marcorg">DLC</recordContentSource>

<recordCreationDate encoding="marc">990310</recordCreationDate>

<recordChangeDate encoding="iso8601">20050818172955.0</recordChangeDate>

<recordIdentifier>4520689</recordIdentifier>

<recordOrigin>Converted from MARCXML to MODS version 3.3 using MARC21slim2MODS3-3.xsl (Revision 1.51)</recordOrigin>

</recordInfo>

</mods>

Obr. č. 9: metadatový záznam knihy ve struktuře MODS [převzat z katalogu Kongresové knihovny v lednu 2012]

2.5  Metadatové schéma MADS

Metadatové schéma pro popis autoritních dat MADS (angl. Metadata Authority Description Schema) je schématem, které bylo také vytvořeno a je stále udržováno, stejně jako metadatové schéma MODS, Kongresovou knihovnou ve Washingtonu na jejím serveru (http://www.loc.gov/standards/mads/) [Library of Congress, 2012a]. Jde o schéma, které koresponduje s formátem MARC 21 pro autoritní data. Je metadatovým schématem ve struktuře XML pro autoritní data (autoritní záznamy) jmenné a věcné povahy včetně unifikovaných názvů děl. Stejně jako schéma MODS, i schéma MADS definuje prvky, jichž je méně ve srovnání s klasickým formátem MARC 21 pro autoritní data. Jednotlivé prvky mají slovní pojmenování. Schéma MADS je přidruženým schématem ke schématu MODS, je také určeno pro potřeby knihoven, zejména pro budování souborů autoritních dat, jeho aplikace nejsou ale ve světovém měřítku až tak početné. Jisté využití schématu MADS je možné vidět i v oblasti soudobých digitálních knihoven a archivů ze zaměřením na vědu a výzkum, které ve vedlejších aplikacích vedou autoritní data o autorech dokumentů (viz příklad záznamu fyzické osoby na obr. č. 10).

První verze metadatového schématu MADS (1.0) byla zpřístupněna 21. 4. 2005 [Library of Congress, 2012a]. Nejnovější verze

2.0 pochází z 2. 6. 2011. Struktura záznamu MADS (XML) je definována pomocí souboru XSD: http://www.loc.gov/standards/mads/mads.xsd. Přehled úplné sémantiky metadatového schématu MADS je k dispozici na URL:

http://www.loc.gov/standards/mads/mads-outline.html.

Sémantika definovaných prvků může být podle potřeb producenta dat zajišťována na základě vlastních pravidel tvorby autoritních dat, ale v profesionální rovině (i z důvodu případných konverzí do jiných formátů či schémat) se doporučuje využití standardu AACR2 (Anglo-American Cataloging Rules) v částech pro tvorbu záhlaví (v případě jmenných autoritních dat). Pro předmětové a klasifikační autoritní údaje je možné využít pravidla specifická pravidla.

Metadatový záznam MADS je uveden kořenovým prvkem <madsCollection> (pro soubor záznamů MADS, z nichž každý je uzavřen v hlavním kořenovém prvku <mads>). Může být uveden i sólovým prvkem <mads>, který je jinak v roli jediného prvku první úrovně (viz příklad na obr. č. 10). V rámci kořenového prvku jsou v atributu xmlns specifikované adresy URL všech schémat, podle kterých je celý metadatový autoritní záznam vytvořen. Uveden může být také údaj o použité verzi schématu.

<?xml version="1.0" encoding="UTF-8" ?>

- <mads xmlns="http://www.loc.gov/mads/" xmlns:mods="http://www.loc.gov/mods/v3" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/mads/ http://www.loc.gov/standards/mads/mads.xsd">

- <authority ID="ESLIS0005">

- <name>

<namePart type="family">Subirats-Coll</namePart>

<namePart type="given">Imma</namePart>

</name>

</authority>

-  <variant>

-  <name>

<namePart type="family">Subirats Coll</namePart>

<namePart type="given">Imma</namePart>

</name>

</variant>

</mads>

Obr. č. 10:autoritní záznam fyzické osoby ve struktuře MADS [převzat ze systému IRALIS v lednu 2012]

V rámci jednoho metadatového záznamu <mads> je povinný jenom jediný prvek <authority>, který je opakovatelný. Další doplňkové hlavní prvky, jako jsou prvek <variant> (pro vyloučené tvary jmen) a/nebo <related> (pro související tvary jmen), jsou volitelné a mohou být opakovatelné. Prvek <authority> musí obsahovat alespoň jeden podprvek (například <name> a

<titleInfo> nebo <topic> a <geographic> a podobně.). Definované atributy schématu MADS se nemusí řadit ve stanoveném pořadí a jsou neopakovatelné [Library of Congress, 2012a].


 

Příkladový záznam na obr. č. 10 pochází ze systému autoritních dat IRALIS, který registruje autory (fyzické osoby) publikující v oboru informační vědy a knihovnictví v elektronických archivech. Metadatové záznamy systému jsou propojeny s mezinárodním elektronickým archivem E-LIS (http://eprints.rclis.org/), kde napomáhají k identifikaci autorů a při přípravě bibliografických metadatových záznamů. Příkladový záznam na obr. č. 11 je delší, pochází ze souboru autoritních dat Kongresové knihovny (http://lccn.loc.gov/n89658825/mads) a reprezentuje známou osobnost oblasti digitálních knihoven prof. E. Foxe z Virginské polytechniky.

<?xml version="1.0" encoding="UTF-8" ?>

- <mads:mads xmlns:mads="http://www.loc.gov/mads/v2" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/mads/v2 http://www.loc.gov/standards/mads/mads-2-0.xsd" version="2.0">

- <mads:authority geographicSubdivision="not applicable">

- <mads:name type="personal" authority="naf">

<mads:namePart>Fox, Edward A. (Edward Alan)</mads:namePart>

<mads:namePart type="date">1950-</mads:namePart>

</mads:name>

</mads:authority>

- <mads:variant type="other">

-  <mads:name type="personal">

<mads:namePart>Fox, E. A. (Edward Alan)</mads:namePart>

<mads:namePart type="date">1950-</mads:namePart>

</mads:name>

</mads:variant>

- <mads:variant type="other">

-  <mads:name type="personal">

<mads:namePart>Fox, E. (Edward)</mads:namePart>

<mads:namePart type="date">1950-</mads:namePart>

</mads:name>

</mads:variant>

<mads:note type="source">nuc89-48425: Salton, G. A comparison of two methods for Boolean ... 1983 (hdg. on NjR rept.: Fox, E. A. (Edward A.); usage: E.A. Fox)</mads:note>

<mads:note type="source">LC database, Oct. 24, 1996 (hdg.: Fox, Edward A.; usage: Edward A. Fox)</mads:note>

<mads:note type="source">OCLC database, Oct. 24, 1996 (usage: Edward A. Fox, E.A. Fox, E. Fox, Edward Alan Fox)</mads:note>

<mads:note type="source">AMWS, 1995/96 (Fox Edward A.; b. May 14, 1950; Dept. of Computer Science, Va.

Tech)</mads:note>

<mads:identifier type="lccn">n 89658825</mads:identifier>

- <mads:recordInfo>

<mads:recordOrigin>Converted from MARCXML to MADS version 2.0 (Revision 2.10)</mads:recordOrigin>

<mads:recordContentSource authority="marcorg">DLC</mads:recordContentSource>

<mads:recordChangeDate encoding="iso8601">19961024085419.0</mads:recordChangeDate>

<mads:recordIdentifier source="DLC">n 89658825</mads:recordIdentifier>

<mads:descriptionStandard>aacr2</mads:descriptionStandard>

</mads:recordInfo>

</mads:mads>

Obr. č. 11:autoritní záznam fyzické osoby ve struktuře MADS [převzat z databáz eautoritních dat Kongresové knihovny v lednu 2012]

3 Rámce pro komunikaci metadat (výběr)

3.1  Struktura RDF (Rámec pro popis zdrojů)

Specifikace schématu-sémantiky Dublin Core byla jednou z mnoha, které v 90. letech vznikly a stále se rozvíjely. Jednou z největších překážek, které stály před systémy a službami, jež se zabývaly popisem a zpracováním digitálních zdrojů, byla multiplicita navzájem nekompatibilních norem či směrnic pro syntax metadat i jazyky definic schémat. Bylo tak prakticky znemožněno vzájemné využívání metadat v různých aplikacích v celosvětovém měřítku. Situaci řešil ve druhé polovině 90. let

20. století i tzv. „Rámec pro popis zdrojů“ (Resource Description Framework, dále také jako RDF), který je dílem společného úsilí řady odborníků z různých organizací celého světa. Práce na struktuře RDF byly vedeny a koordinovány Konsorciem W3C a jeho výsledky byly a stále jsou pro veřejnost k dispozici na hostitelském serveru Massachusettského technologického institutu

USA (http://www.w3.org/RDF/).

Struktura RDF byla založena na webové technologii a byla navržen jako aplikace nového jazyka XML (eXtensible Markup Language) [World Wide Web Consortium, 2008], jenž je derivátem základního značkovacího jazyka SGML. Jazyk XML se stal nástupcem jazyka HTML, který byl používán v minulosti jako hlavní formát webových dokumentů. Překonal řadu jeho limitů a stal se i hlavním přenosovým formátem mezi různými aplikacemi. XML přišel s řadou vynikajících vlastností (např. autoři mohou definovat vlastní tagy), textové dokumenty v tomto formátu jsou snadno čitelné, srozumitelné, zpracovatelné a konvertibilní.

Zobrazování dat je realizováno pouze přes styly. Podstatné změny byly připraveny v oblasti propojování XML dokumentů pomocí speciálních jazyků „Xlink“ a „Xpointer“. Umožnily nejen tvorbu odkazů na části stránek, které nebyly předem označeny, nebo obousměrné odkazy či odkazy na několik zdrojů najednou, ale i odkazy uložené mimo samotný dokument.

Struktura RDF jako aplikace XML má definovanou (naposledy v roce 2004) svoji vlastní standardní DTD (Document Type Definition). Je významnou obecnou specifikací modelu a syntaxe [World Wide Web Consortium, 2004d] a specifikací schématu [World Wide Web Consortium, 2004b] metadat jakéhokoliv zaměření a charakteru. Cílem specifikace bylo zajištění vzájemné součinnosti (interoperability) jednotlivých implementací metadat na mezinárodní úrovni, která zahrnovala jak popis webových digitálních objektů a tvorbu metadat, tak jejich výměnu a zejména užití realizované v první fázi pomocí inteligentních programů-agentů. Jednou z oblastí, která mohla bohatě využívat metadat k plnění svých úkolů, byly i knihovny včetně knihoven národních. Je to však i řada dalších specializovaných institucí, řídících orgánů státních správ apod. Konečným cílem specifikce RDF byla automatická kontrola a komunikace webových zdrojů v celosvětovém měřítku, která byla předpokladem k budování webových informačních systémů a služeb vyššího řádu.

RDF nezahrnuje specifikaci sémantik pro popis zdrojů jednotlivých metadat. Jeho základní model je založen na koncepci popisu zdrojů prostřednictvím souboru jejich vlastností zvaného „popis RDF“. Základní model RDF zahrnuje následující tři typy objektů [World Wide Web Consortium, 2004d]:


 

1) zdroje (webová stránka, část stránky, kolekce stránek nebo celé webové sídlo) identifikované jednoznačným identifikátorem zdroje URI (URL, URN aj.); zdrojem podle RDF ale může být i tradiční dokument.

2) vlastnosti zdrojů (specifický aspekt, atribut nebo vztah užívaný k jejich popisu), které mají specifické významy a v rámci kterých jsou definovány jejich přípustné hodnoty i typy zdrojů, jež jsou popisovány.

3) RDF údaje (výroky), které jsou tvořeny třemi komponentami (srovnej také s úvodním výkladem v části tohoto textu):

Zdrojem (ve specifikaci syntaxe RDF označovaný jako subjekt výroku)

Pojmenovanou vlastností (označovaná jako predikát výroku)

Hodnotou pojmenované vlastnosti (označovaná jako objekt výroku); hodnotou může být jednoduchý řetězec znaků (viz Obr. č. 12), popř. jednoduchý údaj definovaný v rámci specifikace jazyka XML, nebo může být jiný zdroj (entita), který může

být rovněž popsán svými vlastními vlastnostmi (viz obrázek 7).

Příklad: Výrok v přirozeném jazyce:

Tim Berners-Lee je autorem zdroje s adresou http://www.w3.org/DesignIssues/Metadata

je možné vyjádřit pomocí jednoduchého diagramu tak, jak je uvedeno na obrázku 5 (zdroj je vždy uveden v elipse, šipka prezentující vlastnost, musí směřovat ze zdroje na hodnotu pojmenované vlastnosti, jež je v tomto případě v rámečku). http://www.w3.org/DesignIssues/Metadata --- autor --- > Tim Berners-Lee

Obr. č. 12: údaj RDF (výrok)

Prezentace vztahu zobrazeného na Obr. č. 12 bude prostředky jazyka XML/RDF vypadat následujícím způsobem (Obr. č. 13):

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">

<rdf:Description rdf:about="http://www.w3.org/DesignIssues/Metadata">

<author> Tim Berners-Lee </author>

</rdf:Description>

</rdf:RDF>

Obr. č. 13: záznam ve struktuře XML/RDF

Je-li hodnotou vlastnosti výchozího zdroje jiný webový zdroj, bude údaj RDF vyjádřen pomocí diagramu tak, jak je uvedeno na Obr. č. 14. Takový zdroj může mít sám o sobě své vlastní vlastnosti (údaje) s příslušnými hodnotami.


 

 

Obr. č. 14: grafická prezentace údajů RDF (výroků)

RDF je jednou z aplikací jazyka XML, a proto vychází z jeho modelu i syntaxe a nabízí také velmi významný prostředek k zajištění vzájemné součinnosti různých aplikací metadat, který se v anglické terminologii označuje termínem „namespace“ (jmenný prostor). Jmenný prostor v XML je v základní dokumentaci definován jako kolekce jmen identifikovaných URI, jež jsou užívána v dokumentech XML jako typy prvků a jména vlastností [World Wide Web Consortium, 2009]. Jednotlivým systémům se umožňuje, aby při popisu zdrojů deklarovaly své vlastní způsoby vyjadřování popisu zdrojů. Při popisu zdroje v jednom systému je možné využít některé prvky jiného systému. Jmenné prostory představují vlastně specifické webové dokumenty obsahující definice specifikací metadat (syntaxe i sémantiky), které zajišťují kontext jakéhokoliv prvku použitého v popisu zdroje pomocí odkazu na tyto dokumenty.

Konkrétní mechanismus uplatnění jmenných prostorů znamená, že prvky (údaje) popisu RDF, které nejsou součástí základního jazyka XML, jsou opatřeny prefixem identifikujícím příslušný prostor jmen jejich původu. Např. Dublin Core má podle výše citované směrnice navržený prefix „dc:“. K zajištění odkazu mezi prefixem „dc:“ a příslušnou definicí Dublin

Core, který by byl srozumitelný příslušnému programu, je v rámci popisu RDF uvedena deklarace s užitými jmennými prostory, například:

<rdf:RDF


 

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" > <?xml version="1.0" encoding="windows-1250"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dc="http://purl.org/dc/elements/1.0/" xmlns:dcq="http://purl.org/dc/qualifiers/1.0/">

<rdf:Description rdf:about="http://www.cuni.cz/ffuisk/">

<dc:title>

<rdf:Alt>

<rdf:li xml:lang="en">Institute of Information Studies and Librarianship (IISL) Home Page </rdf:li>

<rdf:li xml:lang="cs">Ústav informačních studií a knihovnictví (ÚISK) [Domovská stránka]</rdf:li>

</rdf:Alt>

</dc:title>

<dc:creator> Ústav informačních studií a knihovnictví </dc:creator>

<dc:description>

<rdf:Alt>

<rdf:li xml:lang="en">Main Home Page of the Institute of Information Studies and Librarianship Web site. </rdf:li>

<rdf:li xml:lang="cs">Hlavní domovská stránka webového sídla Ústavu informačních studií a knihovnictví.</rdf:li>

</rdf:Alt>

</dc:description>

<dc:subject> Informační věda; Knihovnictví; Vysokoškolské vzdělávání </dc:subject>

<dc:publisher> Ústav informačních studií a knihovnictví </dc:publisher>

<dc:contributor>

<rdf:Bag>

<rdf:li>Saša Skenderija</rdf:li>

<rdf:li>Eva Bratková</rdf:li>

</rdf:Bag>

</dc:contributor>

<dc:date>

<rdf:Description>

<dcq:dateScheme> WTN8601 </dcq:dateScheme>

<rdf:value> 1995-01-10 </rdf:value>

</rdf:Description>

</dc:date>

<dc:format>

<rdf:Description>

<dcq:formatScheme> IMT </dcq:formatScheme>

<rdf:value> text/html </rdf:value>

</rdf:Description>

</dc:format>

<dc:language>

<rdf:Description>

<dcq:languageScheme> RFC1766 </dcq:languageScheme>

<rdf:value> cs </rdf:value>

</rdf:Description>

</dc:language>

</rdf:Description>

</rdf:RDF>

Obr. č. 15: grafická prezentace údajů RDF (výroků)

V příkladě je v rámci deklarace RDF uveden jmenný prostor podle vlastní syntaxe RDF. Jeho formalizovaný zápis obsahuje kvalifikované jméno jmenného prostoru „xmlns:rdf“ a příslušné URI dokumentu se specifikací syntaxe. Znak „#“ na konci URI je důležitý, je používán pro kombinaci jména jmenného prostoru s lokálním jménem, aby bylo možné získat úplné URI jednotlivých typů vlastností (například http://www.w3.org/1999/02/22-rdf-syntax-ns#Bag).

Na Obr. č. 15 jsou v rámci RDF deklarace uvedeny také dva jmenné prostory jednoduchého i komplexního DC. Pokud se tedy v záznamu objevuje např. údaj o tvůrci dokumentu zapsaný ve formě <dc:creator>, pak příslušný program (parser) pro potřeby jeho dalšího zpracování načte a případně zkontroluje jeho plnou formu (http://purl.org/dc/elements/1.0/creator).

Výše uvedený text této části je jen velmi stručným uvedením do komplexu celé specifikace RDF. Z důvodu omezeného rozsahu článku nebude tento velmi významný materiál charakterizován podrobněji, zájemce lze odkázat zatím na řadu originálních původních zdrojů (World Wide Web Consortium, 2008; World Wide Web Consortium, 2009; World Wide Web Consortium, 2004b; World Wide Web Consortium, 2004c; World Wide Web Consortium, 2004d; World Wide Web Consortium, 2004e). Ve zbylém prostoru textu proto bude dále následovat pouze komentář k nejdůležitějším principům a prvkům specifikace RDF realizované v prostředí jazyka XML, a to v návaznosti na příklad souboru metadat na obrázku 15, jenž byl připraven podle nově navrhované pracovní směrnice aplikace RDF pro Dublin Core Pracovní skupinou pro datový model DCMI.

Na Obr. č. 15 je soubor metadat bývalé domovské stránky (ÚISK FFUK) s URL: http://www.cuni.cz/ffuisk/. Soubor obsahuje údaje specifikované jak základní sestavou Dublin Core (dle starší verze 1.0), tak provizorní rozšířené sestavy s kvalifikátory (rovněž dle starší verze 1.0). Obě specifikace jsou v souladu s RDF korektně odkazovány prostřednictvím adresy URL jako prostory jmen vlastností DC (viz 4. a 5. řádek (hodnoty dc a dcq) v záznamu na Obr. č. 15 s návěštím „xmlns“.). Základní definice syntaxe RDF (hodnota rdf) je podobným způsobem odkazována ve 3. řádku. Uvedený soubor metadat DC ve struktuře RDF/XML, který je připraven podle základní (serializační) syntaxe [World Wide Web Consortium, 2004d], není součástí reálné webové stránky, a to z toho důvodu, že by nebyl korektně zpracován pomocí některých současných prohlížečů. Byl proto dostupný odděleně jako sólový textový XML soubor.


 

K syntaxi záznamu z Obr. č. 15 lze uvést ještě následující základní vysvětlení:

bylo možné prověřit pomocí speciálního jednoduchého programu (parseru a kompilátoru) „SiRPAC“, který byl k dispozici na WWW v rámci produktů konsorcia W3C [SiRPAC] (je nyní nahrazen službou

Validation Service). Záznam je po načtení a kontrole rozložen do logicky uspořádaných trojic (anglicky „triple“) reprezentujících jednotlivé výroky/údaje o dokumentu v pořadí: 1. Pojmenovaná vlastnost zdroje, 2. Popisovaný zdroj a 3. Hodnota pojmenované vlastnosti. Příklad rozkladu jednoho z „jednoduchých“ údajů <dc:publisher> Ústav informačních studií a knihovnictví

</dc:publisher> je vidět na Obr. č. 16.

triple('http://purl.org/dc/elements/1.0/publisher', 'http://www.cuni.cz/ffuisk/',

'Ústav informačních studií a knihovnictví').

Obr. č. 16: trojice výroku RDF

í řádce záznamu je uvedena povinná deklarace verze jazyka XML (verze1.0) včetně užitého kódování. Na druhé řádce je taktéž povinná deklarace užití struktury RDF v

značce <rdf>, která musí mít na konci párovou značku </rdf> (v rámci striktních pravidel XML musejí být všechny značky párové).

(např. dc:title, dc:description apod.).

jsou ve dvou variantách (anglicky a česky), a proto je v rámci opakovatelných hodnot <rdf:li>, které jsou uvedené ve skupině alternativních údajů <rdf:Alt>, využito přímo vlastnosti

jazyka XML - je uvedena deklarace užitého jazyka v kódovaném tvaru s hodnotami podle mezinárodní normy ISO 639 (xml:lang="en", xml:lang=cs").

- v tomto případě neuspořádaných hodnot; pro uspořádané množiny je v RDF připravena značka <rdf:Seq>, tj. sekvence.

neschválených kvalifikátorů-schémat Dublin Core, které byly diskutovány. Jméno zdrojové specifikace „dcq:“ (dcq:dateScheme, dcq:formatScheme a dcq:languageScheme) bylo užíváno pouze pro testovací potřeby.

3.2 Struktura METS (Rámec pro komunikaci a archivaci metadat a zdrojů)

Standard pro kódování a přenos metadat METS (angl. Metadata Encoding and Transmission Standard) je v současné době jednou z nejvýznamnějších struktur kontejnerového typu pro komunikaci komplexních metadat. Struktura METS je připravena na základě jazyka XML. Standard byl vytvořen a je udržován, stejně jako řada metadatových schémat, Kongresovou knihovnou ve Washingtonu na jejím serveru (http://www.loc.gov/standards/mets/) [Library of Congress, 2012d]. Jeho vznik byl vyvolán americkou iniciativou Federací pro digitální knihovny (Digital Library Federation, DLF) [TAYLOR, 2004, s. 95-96]. Struktura METS je proto standardem sektoru digitálních knihoven či digitálních archivů (digitálních repozitářů) se zvláštním důrazem na problém dlouhodobé archivace informačních objektů (informačních balíčků), která se bez komplexních metadat neobejde. Jejím specifikem je, že může v sobě zahrnout všechna možná (a potřebná) metadata v různých dílčích schématech, která se nějak týkají digitálního informačního objektu (metadata nejen popisná, ale i administrativní, strukturální, právní aj.). Struktura METS byla připravena s prvotním cílem sloužit jako komunikativní formát při přenosu metadat mezi systémy, zejména systémy digitálních archivů a knihoven. Později se ukázalo, že jde o strukturu významnou pro dlouhodobou ochranu digitálních objektů.

Zatím poslední verzí struktury METS je verze 1.9. Schéma struktury XML METS je k dispozici na URL: http://www.loc.gov/standards/mets/mets.xsd.

Struktura METS jako kontejner pro různé typy metadat se skládá ze sedmi hlavních částí [Library of Congress, 2012d]:

1.  <METS:metsHdr> hlavička záznamu METS

2. <METS:dmdSec> Sekce popisných metadat

3. <METS:amdSec> Sekce administrativních metadat

4. <METS:fileSec> Sekce souborů dokumentu

5. <METS:structMap> Sekce strukturální mapy (povinná část záznamu)

6. <METS:structLink> sekce strukturálních odkazů

7.  <METS:behaviorSec> sekce pravidel chování

Záznam ve struktuře METS musí mít jako povinnou část strukturální mapy <METS:structMap> a kořenový prvek <mets>, který zahrnuje URL všech schémat (v rámci atributu xmlns), na základě kterých byl připraven komplexní metadatový záznam, zahrnut může být i trvalý identifikátor digitálního objektu (viz obr. č. X s identifikátorem hdl:1721.1/43074). Příkladový záznam na obr. č. X zahrnuje části 1-5, nezahrnuje části 6-7 (nejsou v praxi aplikovány často). Záznam byl převzat z digitálního archivu Massachusettského technologického institutu (MIT) pomocí protokolu OAI-PMH: http://dspace.mit.edu/oai/request?verb=GetRecord&metadataPrefix=mets&identifier=oai%3Adspace.mit.edu%3A1721.1%2F43 074

<?xml version="1.0" encoding="UTF-8" ?>

-  <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema- instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">

<responseDate>2012-07-13T09:51:21Z</responseDate>

<request identifier="oai:dspace.mit.edu:1721.1/43074" metadataPrefix="mets" verb="GetRecord">http://dspace.mit.edu/oai/request</request>

-  <GetRecord>

-  <record>

-  <header>

<identifier>oai:dspace.mit.edu:1721.1/43074</identifier>

<datestamp>2012-06-15T15:36:54Z</datestamp>

<setSpec>hdl_1721.1_7663</setSpec>

<setSpec>hdl_1721.1_7817</setSpec>

</header>

-  <metadata>

-  <mets OBJID="hdl:1721.1/43074" LABEL="DSpace Item" xmlns="http://www.loc.gov/METS/" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"


 

xmlns:mods="http://www.loc.gov/mods/v3" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-0.xsd">

- <metsHdr CREATEDATE="2012-07-13T05:51:21">

-  <agent ROLE="CUSTODIAN" TYPE="ORGANIZATION">

<name>DSpace@MIT</name>

</agent>

</metsHdr>

- <dmdSec ID="DMD_hdl_1721.1/43074">

-  <mdWrap MDTYPE="MODS">

- <xmlData>

-  <mods:name>

-  <mods:role>

<mods:roleTerm type="text">advisor</mods:roleTerm>

</mods:role>

<mods:namePart>Deb K. Roy.</mods:namePart>

</mods:name>

-  <mods:name>

-  <mods:role>

<mods:roleTerm type="text">author</mods:roleTerm>

</mods:role>

<mods:namePart>Kubat, Rony Daniel</mods:namePart>

</mods:name>

-  <mods:name>

-  <mods:role>

<mods:roleTerm type="text">other</mods:roleTerm>

</mods:role>

<mods:namePart>Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science.</mods:namePart>

</mods:name>

-  <mods:extension>

<mods:dateAccessioned encoding="iso8601">2008-11-07T18:59:12Z</mods:dateAccessioned>

</mods:extension>

-  <mods:extension>

<mods:dateAvailable encoding="iso8601">2008-11-07T18:59:12Z</mods:dateAvailable>

</mods:extension>

-  <mods:originInfo>

<mods:copyrightDate encoding="iso8601">2008</mods:copyrightDate>

</mods:originInfo>

-  <mods:originInfo>

<mods:dateIssued encoding="iso8601">2008</mods:dateIssued>

</mods:originInfo>

<mods:identifier type="uri">http://hdl.handle.net/1721.1/43074</mods:identifier>

<mods:note>Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2008.</mods:note>

<mods:note>Includes bibliographical references (p. 93-97).</mods:note>

<mods:abstract>Humans are sensitive to situational and semantic context when applying labels to colors. This is especially challenging for algorithms which attempt to replicate human categorization for communicative tasks. Additionally, mismatched color models between dialog partners can lead to a back-and-forth negotiation of terms to find common ground. This thesis presents a color-classification algorithm that takes advantage of a dialog-like interaction model to provide fast-adaptation for a specific exchange. The model learned in each exchange is then integrated into the system as a whole. This algorithm is an incremental meta-learner, leveraging a generic online- learner and adding context-sensitivity. A human study is presented, assessing the extent of semantic contextual effects on color naming. An evaluation of the algorithm based on the corpus gathered in this experiment is then tendered.</mods:abstract>

<mods:note type="statement of responsibility">by Rony Daniel Kubat.</mods:note>

-  <mods:physicalDescription>

<mods:extent>97 p.</mods:extent>

</mods:physicalDescription>

-  <mods:language>

<mods:languageTerm authority="rfc3066">eng</mods:languageTerm>

</mods:language>

-  <mods:originInfo>

<mods:publisher>Massachusetts Institute of Technology</mods:publisher>

</mods:originInfo>

<mods:accessCondition type="useAndReproducation">M.I.T. theses are protected by copyright. They may be viewed from this source for any purpose, but reproduction or distribution in any format is prohibited without written permission. See provided URL for inquiries about permission.</mods:accessCondition>

<mods:accessCondition xlink:simpleLink="http://dspace.mit.edu/handle/1721.1/7582">http://dspace.mit.edu/handle/1721.1/7582</mods

:accessCondition>

- <mods:subject>

<mods:topic>Electrical Engineering and Computer Science.</mods:topic>

</mods:subject>

<mods:titleInfo>A context-sensitive meta-classifier for color-naming</mods:titleInfo>

<mods:genre>Thesis</mods:genre>


 

</xmlData>

</mdWrap>

</dmdSec>

<amdSec ID="TMD_hdl_1721.1/43074" />

- <fileSec>

-  <fileGrp USE="ORIGINAL">

- <file ID="1721.1_43074_1" MIMETYPE="application/pdf" SIZE="10060080" CHECKSUM="7720af0b129b81f94a16da7494790895" CHECKSUMTYPE="MD5"

OWNERID="http://dspace.mit.edu/bitstream/1721.1/43074/1/244251133.pdf" GROUPID="GROUP_1721.1_43074_1">

<FLocat LOCTYPE="URL" xlink:type="simple" xlink:href="http://dspace.mit.edu/bitstream/1721.1/43074/1/244251133.pdf" />

</file>

- <file ID="1721.1_43074_2" MIMETYPE="application/pdf" SIZE="10059891" CHECKSUM="0b34762ab5fb9d49aaef1f1e2c5c3d9b" CHECKSUMTYPE="MD5"

OWNERID="http://dspace.mit.edu/bitstream/1721.1/43074/2/244251133-MIT.pdf" GROUPID="GROUP_1721.1_43074_2">

<FLocat LOCTYPE="URL" xlink:type="simple" xlink:href="http://dspace.mit.edu/bitstream/1721.1/43074/2/244251133-MIT.pdf" />

</file>

</fileGrp>

-  <fileGrp USE="TEXT">

- <file ID="1721.1_43074_3" MIMETYPE="text/plain" SIZE="131446" CHECKSUM="32beaf85f62036f77b83319e0d4c745b" CHECKSUMTYPE="MD5"

OWNERID="http://dspace.mit.edu/bitstream/1721.1/43074/3/244251133.pdf.txt" GROUPID="GROUP_1721.1_43074_1">

<FLocat LOCTYPE="URL" xlink:type="simple" xlink:href="http://dspace.mit.edu/bitstream/1721.1/43074/3/244251133.pdf.txt" />

</file>

- <file ID="1721.1_43074_4" MIMETYPE="text/plain" SIZE="131446" CHECKSUM="32beaf85f62036f77b83319e0d4c745b" CHECKSUMTYPE="MD5"

OWNERID="http://dspace.mit.edu/bitstream/1721.1/43074/4/244251133-MIT.pdf.txt" GROUPID="GROUP_1721.1_43074_2">

<FLocat LOCTYPE="URL" xlink:type="simple" xlink:href="http://dspace.mit.edu/bitstream/1721.1/43074/4/244251133-MIT.pdf.txt" />

</file>

</fileGrp>

</fileSec>

- <structMap>

<div />

</structMap>

</mets>

</metadata>

</record>

</GetRecord>

</OAI-PMH>

Obr. č. 17: metadatový záznam disertace z institucionálního archivu DSpace at MIT v kontejnerové struktuře mets (popisná metatada jsou ve schématu MODS) [získáno pomocí protokolu OAI-PMH, příkazem GetRecord, 2012]

Hlavička METS (<METS:metsHdr>)

Hlavička záznamu METS může nést základní popisné informace o samotném záznamu METS. Může to být datum vytvoření záznamu (i ze strany uživatele), jméno a typ korporace, která má určitý vztah k záznamu METS aj.

Sekce popisných metadat (<METS:dmdSec>)

Sekce je určená pro popis digitálního dokumentu. Může obsahovat jeden i více prvků. Každý prvek této sekce může obsahovat buď odkaz na externě lokalizovaný metadatový záznam (prvek <mdRef>) a/nebo přímo vložená popisná metadata (prvek

<mdWrap>) – viz obr. č. X s vloženým metadatovým popisem ve struktuře MODS. Při odkazování na externí metadatový záznam se předpokládá použití URI (Uniform Resource Identifier) – například URN, HDL, DOI aj. U vnořeného záznamu s popisnými metadaty by měl být uveden jejich typ (například MARCXML, MODS, Dublin Core, MIX, TEI Leader aj. Každý prvek popisné sekce musí obsahovat jednoznačný identifikátor pro potřeby strukturální mapy (atribut ID), například:

<dmdSec ID="DMD_hdl_1721.1/43074">

Sekce administrativních metadat (<METS:amdSec>)

Prvek <amdSec> může obsahovat administrativní metadata jednak pro počítačové soubory, které tvoří celý digitální objekt, jednak pro původní předlohy, ze kterých dministrativní sekce má definované čtyři dílčí typy administrativních metadat: technická metadata <techMD> (například datový formát)

právní metadata <rightsMD> (týkající se duševního vlastnictví nebo licení k využití zdroje) metadata o zdroji <sourceMD> (jde o popisná metadata o původním analogovém zdroji digitálního objekt)

metadata o digitálním zdroji <digiprovMD> (například informace o původu zdroje, životním cyklu zdroje, jeho migraci, o změnách s časem aj.

Uvedené čtyři dílčí prvky se mohou podle potřeby opakovat. Dílčí metadatové záznamy je možné v rámci všech dílčích prvků vložit přímo nebo pomocí externího odkazu (viz sekce popisných metadat). Důležitým principem je zachování jedinečných identifikátorů pro každý metadatový záznam napříč celým záznamem METS.

Sekce souborů dokumentu (<METS:fileSec>)

Sekce souborů (prvek <fileSec>) zahrnuje výčet všech souborů, které jsou spojené s popisovaným informačním objektem (seznam archivních kopií, uživatelských kopií, různé formátové verze stejného objektu (JPEG, TIFF, GIF) aj.). Hlavní prvek

<fileSec> může obsahovat jeden i více prvků pro reprezentaci skupiny souborů <fileGrp>. Pokud se dílčí soubory týkají stejného digitálního objektu, lze vyuřít atribut GROUPID (viz obr. č. 17. Každý počítačový soubor musí mít jedinečný identifikátor, který zajišťuje správné použití vazeb v strukturální mapě záznamu METS.


 

Obsah počítačového souboru lze odkazovat formou externí lokalizace (prvek <FLocat>) (viz obr. č. 17), nebo přímým vložením do METS dokumentu (pomocí prvku <FContent>).

Sekce strukturální mapy (<METS:structMap>)

Sekce strukturální mapy záznamu METS obsahuje hierarchickou strukturu pro prezentaci vazeb uvnitř záznamu METS. Každou vazbu lze vyjádřit pomocí vnořeného prvku <div>, i opakovaně. Vnitřně lze pak použít prvky <mptr> a <fptr> pro odkazy na odpovídající část záznamu METS, popřípadě konkrétní fyzické soubory.

Sekce strukturálních odkazů (<METS:structLink>)

Sekce strukturálních odkazů dovoluje zaznamenat zaznamenat odkaz mezi jednotlivými částmi záznamu METS, např. mezi jednotlivými částmi strukturální mapy.

Sekce modelů chování (<METS:behaviorSec>)

Sekce poskytuje informace o aplikacích spojených s obsahem digitálního dokumentu. Zahrnut může být jeden i více prvků

<behavior>.