Skip to content

Commit e708ff1

Browse files
Copilotmaehr
andcommitted
feat: Create glossary and improve field/value formatting consistency
Co-authored-by: maehr <[email protected]>
1 parent b0685f3 commit e708ff1

File tree

2 files changed

+192
-11
lines changed

2 files changed

+192
-11
lines changed

manuscript/glossar.md

Lines changed: 181 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,181 @@
1+
# Glossar
2+
3+
## A
4+
5+
**AAT (Art & Architecture Thesaurus)**
6+
Kontrolliertes Vokabular des Getty Research Institute für Kunst, Architektur und materielle Kultur.
7+
8+
**API (Application Programming Interface)**
9+
Programmierschnittstelle, die es Anwendungen ermöglicht, mit anderen Systemen zu kommunizieren.
10+
11+
## B
12+
13+
**Bias**
14+
Systematische Verzerrung oder Voreingenommenheit in Daten, Algorithmen oder Entscheidungsprozessen.
15+
16+
## C
17+
18+
**CARE-Prinzipien**
19+
Collective Benefit (Kollektiver Nutzen), Authority to Control (Kontrolle über die Daten), Responsibility (Verantwortung), Ethics (Ethik) – Leitlinien für ethische Datenpraxis.
20+
21+
**CER (Character Error Rate)**
22+
Fehlerrate bei der Zeichenerkennung, gemessen als Anteil falsch erkannter Zeichen.
23+
24+
**CSV (Comma-Separated Values)**
25+
Einfaches Dateiformat zur Speicherung tabellarischer Daten.
26+
27+
## D
28+
29+
**DCC (Digital Curation Centre)**
30+
Britisches Zentrum für digitale Kuration, das u.a. den Curation Lifecycle entwickelt hat.
31+
32+
**DCMES (Dublin Core Metadata Element Set)**
33+
Grundlegendes Metadatenschema mit 15 Kernelementen zur Beschreibung digitaler Ressourcen.
34+
35+
**DCTERMS (Dublin Core Metadata Terms)**
36+
Erweiterte Version des Dublin Core mit zusätzlichen Elementen und Verfeinerungen.
37+
38+
**DOI (Digital Object Identifier)**
39+
Persistenter Identifikator für digitale Objekte, der dauerhaft auf eine Ressource verweist.
40+
41+
## E
42+
43+
**EAD (Encoded Archival Description)**
44+
XML-Standard zur Beschreibung von Archivbeständen und deren hierarchischer Struktur.
45+
46+
**EDM (Europeana Data Model)**
47+
Datenmodell der Europeana zur Beschreibung und Verknüpfung von Kulturobjekten.
48+
49+
**EDTF (Extended Date/Time Format)**
50+
Standard zur präzisen Erfassung von unsicheren oder ungenauen Zeitangaben.
51+
52+
## F
53+
54+
**FAIR-Prinzipien**
55+
Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel), Reusable (wiederverwendbar) – Leitlinien für nachhaltige Datenpraxis.
56+
57+
## G
58+
59+
**Gazetteer**
60+
Geografisches Verzeichnis oder Ortsnamendatenbank mit standardisierten Toponymen.
61+
62+
**GND (Gemeinsame Normdatei)**
63+
Kooperativ geführte Normdatei für Personen, Körperschaften, Geografika und Sachbegriffe im deutschsprachigen Raum.
64+
65+
**GLAM-Institutionen**
66+
Galleries, Libraries, Archives, Museums – Sammelbegriff für Gedächtnisinstitutionen.
67+
68+
## H
69+
70+
**HTR (Handwritten Text Recognition)**
71+
Automatische Erkennung handgeschriebener Texte mittels Algorithmen.
72+
73+
## I
74+
75+
**IIIF (International Image Interoperability Framework)**
76+
Standardisierte API zur interoperablen Bereitstellung und Präsentation von Bildern.
77+
78+
## J
79+
80+
**JSON-LD (JavaScript Object Notation for Linked Data)**
81+
Datenformat zur Strukturierung verknüpfter Daten im Web.
82+
83+
## L
84+
85+
**LCSH (Library of Congress Subject Headings)**
86+
Kontrolliertes Vokabular der Library of Congress für thematische Erschliessung.
87+
88+
**LIDO (Lightweight Information Describing Objects)**
89+
XML-Standard zur Beschreibung von Museumsobjekten und Kulturgut.
90+
91+
**LLM (Large Language Model)**
92+
Grosse Sprachmodelle, die mittels maschinellem Lernen natürliche Sprache verarbeiten.
93+
94+
**LOUD (Linked Open Usable Data)**
95+
Ansatz zur nutzerorientierten Bereitstellung verknüpfter, offener Daten.
96+
97+
## M
98+
99+
**MARC (Machine-Readable Cataloging)**
100+
Bibliografisches Datenformat zur maschinenlesbaren Katalogisierung.
101+
102+
**METS (Metadata Encoding and Transmission Standard)**
103+
XML-Standard zur Strukturierung digitaler Bibliotheksobjekte und ihrer Metadaten.
104+
105+
**MODS (Metadata Object Description Schema)**
106+
XML-Schema zur detaillierten Beschreibung bibliografischer Ressourcen.
107+
108+
## O
109+
110+
**OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)**
111+
Protokoll zum automatisierten Austausch von Metadaten zwischen Repositorien.
112+
113+
**OAIS (Open Archival Information System)**
114+
Referenzmodell für die digitale Langzeitarchivierung.
115+
116+
**OCR (Optical Character Recognition)**
117+
Optische Zeichenerkennung zur automatischen Texterkennung in Bildern.
118+
119+
**OCAP (Ownership, Control, Access, Possession)**
120+
Prinzipien indigener Datenhoheit aus Kanada.
121+
122+
**ORCID (Open Researcher and Contributor ID)**
123+
Persistenter Identifikator für Forschende und Autor*innen.
124+
125+
## P
126+
127+
**PID (Persistent Identifier)**
128+
Dauerhafter Identifikator, der langfristig auf eine Ressource verweist.
129+
130+
**PREMIS (Preservation Metadata Implementation Strategies)**
131+
Standard für Metadaten zur digitalen Langzeitarchivierung.
132+
133+
## R
134+
135+
**RDF (Resource Description Framework)**
136+
Framework zur Beschreibung von Ressourcen im Web durch strukturierte Metadaten.
137+
138+
**RO-Crate (Research Object Crate)**
139+
Standard zur Verpackung und Beschreibung von Forschungsdaten und deren Kontext.
140+
141+
## S
142+
143+
**Schema.org**
144+
Kollaboratives Projekt zur Entwicklung strukturierter Datenstandards für das Web.
145+
146+
**SKOS (Simple Knowledge Organization System)**
147+
Standard zur Repräsentation kontrollierter Vokabulare und Thesauri.
148+
149+
## T
150+
151+
**TK-Labels (Traditional Knowledge Labels)**
152+
Kennzeichnungssystem für traditionelles Wissen indigener Gemeinschaften.
153+
154+
## U
155+
156+
**URI (Uniform Resource Identifier)**
157+
Eindeutiger Bezeichner für Ressourcen im Web.
158+
159+
**UTF-8**
160+
Zeichenkodierung, die alle Unicode-Zeichen darstellen kann.
161+
162+
## V
163+
164+
**VIAF (Virtual International Authority File)**
165+
Internationale Normdatei, die verschiedene nationale Normdateien verknüpft.
166+
167+
**VRA Core**
168+
Metadatenstandard für die Beschreibung visueller Ressourcen in Kunst und Architektur.
169+
170+
## W
171+
172+
**WER (Word Error Rate)**
173+
Fehlerrate bei der Texterkennung, gemessen als Anteil falsch erkannter Wörter.
174+
175+
## X
176+
177+
**XML (eXtensible Markup Language)**
178+
Auszeichnungssprache zur strukturierten Darstellung von Daten.
179+
180+
**XSD (XML Schema Definition)**
181+
Schema-Sprache zur Definition der Struktur und Datentypen von XML-Dokumenten.

manuscript/index.qmd

Lines changed: 11 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -234,7 +234,7 @@ Indirekte Diskriminierung liegt vor, wenn formal neutrale Kriterien, Methoden od
234234

235235
* *Mechanismus:* Auswahl- und Digitalisierungsbias; OCR/HTR bevorzugt standardisierte Drucke.
236236
* *Effekt:* Unterrepräsentation von Frauen, Arbeiter\*innen, Handschriften.
237-
* *Indikatoren:* CER/WER nach Schrift/Medium; Recall-Differenzen in Korpora.
237+
* *Indikatoren:* `CER`/`WER` nach Schrift/Medium; Recall-Differenzen in Korpora.
238238
* *Gegenmassnahmen:* Stratifizierte Digitalisierung, gezieltes Fine-Tuning, ausgleichendes Ranking, Query-Expansion.
239239
* **Zensuskategorien**
240240

@@ -265,7 +265,7 @@ Strukturelle Diskriminierung bezeichnet Benachteiligungen, die in etablierten Pr
265265

266266
* *Mechanismus:* Kanonzentrierte Auswahl; Trainingsdaten für dominante Schriften/Sprachen; Indexgewichte bevorzugen gut erkannten Text.
267267
* *Effekt:* Höhere Fehlerraten und schlechtere Auffindbarkeit für Minderheitensprachen und Handschriften.
268-
* *Indikatoren:* CER/WER nach Schrift/Varietät; Recall-Differenzen; Abdeckung pro Segment.
268+
* *Indikatoren:* `CER`/`WER` nach Schrift/Varietät; Recall-Differenzen; Abdeckung pro Segment.
269269
* *Gegenmassnahmen:* Stratifizierte Auswahlpläne, publizierte Fehlerbilanzen, Fine-Tuning für unterrepräsentierte Schriften, re-ranking, CLIR.
270270
* **Kanon- und Metrikgetriebene implizite Priorisierung**
271271

@@ -521,7 +521,7 @@ Historische Daten- und Metadatenpraktiken können Unterdrückung auf mindestens
521521

522522
Historische Daten sind in ihrer Entstehung, Überlieferung und Digitalisierung selektiv. Retrodigitalisierte Bestände sind geprägt von den Normen ihrer Entstehungszeit, den Kriterien archivarischer Auswahl sowie den technischen Entscheidungen heutiger Digitalisierungsprozesse. Eine vollständige Überwindung dieser Vorprägungen ist nicht erreichbar; realistisch ist nur, sie sichtbar zu machen und mögliche und tatsächliche Folgen aufzuzeigen. Damit verschiebt sich der Anspruch von vermeintlicher Neutralität zu expliziter Reflexivität: Provenienzangaben, Auswahlkriterien und Erschliessungsentscheidungen werden systematisch dokumentiert, versioniert und in Analysen berücksichtigt.
523523

524-
Messbarkeit bleibt begrenzt, weil zentrale Grössen nur über Proxy-Variablen zugänglich sind. OCR/HTR-Fehler, Normalisierungen und Kategorienschnitte erzeugen Verzerrungen, die nicht homogen über Sprachen, Schriften und Gruppen wirken. Operationalisierungen sollten deshalb mit Fehlermodellen verknüpft werden, die Unsicherheiten quantifizieren; Zum Beispiel Konfidenzintervalle für CER/WER und gruppenspezifische Recall/Precision. Fairnessbegriffe sind zudem konkurrierend: Parität in der Trefferquote, Gleichheit der Fehlerraten und Nutzenmaximierung lassen sich oft nicht gleichzeitig erreichen. Solche Zielkonflikte sind offen zu benennen und als Governance-Entscheidungen zu verantworten.
524+
Messbarkeit bleibt begrenzt, weil zentrale Grössen nur über Proxy-Variablen zugänglich sind. `OCR`/`HTR`-Fehler, Normalisierungen und Kategorienschnitte erzeugen Verzerrungen, die nicht homogen über Sprachen, Schriften und Gruppen wirken. Operationalisierungen sollten deshalb mit Fehlermodellen verknüpft werden, die Unsicherheiten quantifizieren; Zum Beispiel Konfidenzintervalle für `CER`/`WER` und gruppenspezifische Recall/Precision. Fairnessbegriffe sind zudem konkurrierend: Parität in der Trefferquote, Gleichheit der Fehlerraten und Nutzenmaximierung lassen sich oft nicht gleichzeitig erreichen. Solche Zielkonflikte sind offen zu benennen und als Governance-Entscheidungen zu verantworten.
525525

526526
Die verschiedenen Formen von Verzerrung, direkt, indirekt, strukturell oder institutionell, wirken nicht isoliert, sondern greifen ineinander. Entscheidungen im Digitalisierungsprozess, etwa eine stratifizierte Auswahl, prägen dadurch unmittelbar spätere Suchergebnisse und deren Interpretation. Hinzu treten klassische Repräsentativitätsprobleme: Korpusgrenzen, Überlieferungs- und Auswahlverzerrungen sowie zeitliche Verschiebungen („dataset shift“) mindern die Übertragbarkeit von Befunden. Kausale Schlussfolgerungen aus solchen Beobachtungsdaten sind deshalb nur unter starken Zusatzannahmen belastbar. Potenzielle Störfaktoren wie Confounding, Selektions- oder Messfehler sind als zentrale Hypothesen zu behandeln – nicht als nachträgliche Randbemerkung.
527527

@@ -569,13 +569,13 @@ Zur Illustration Begrifflichkeiten rund um Metadaten greifen wir auf die Metadat
569569

570570
: "Metadaten-Tabelle für: *Knie Völkerschau*"
571571

572-
Die Metadaten des Plakats *Knie Völkerschau* machen deutlich, dass Metadaten sowohl **intrinsische** (dem Objekt selbst inhärente) als auch **extrinsische** (dem Objekt zugeschriebene) **Informationen** enthalten können. So verweist etwa *dc:description* auf intrinsische Eigenschaften wie Format, Material und Gestaltung des Drucks, während Felder wie *dc:subject* oder *edm:provider* extrinsische Klassifikationen und institutionelle Zuschreibungen dokumentieren.[@forschungsdateninfo_metadaten_2024]
572+
Die Metadaten des Plakats *Knie Völkerschau* machen deutlich, dass Metadaten sowohl **intrinsische** (dem Objekt selbst inhärente) als auch **extrinsische** (dem Objekt zugeschriebene) **Informationen** enthalten können. So verweist etwa `dc:description` auf intrinsische Eigenschaften wie Format, Material und Gestaltung des Drucks, während Felder wie `dc:subject` oder `edm:provider` extrinsische Klassifikationen und institutionelle Zuschreibungen dokumentieren.[@forschungsdateninfo_metadaten_2024]
573573

574574
Darüber hinaus lassen sich die im Beispiel vorliegenden Metadaten verschiedenen **Funktionskategorien** zuordnen:
575575

576-
* **Bibliographische Metadaten**: Titel (*dc:title*), Identifier (*dc:identifier*, *Europeana-ID*), Rechte (*dc:rights*).
577-
* **Administrative Metadaten**: Angaben zu Datenprovidern, Aggregationsdiensten und Zugangs-URLs (*edm:provider*, *edm:isShownAt*).
578-
* **Fachspezifisch-inhaltliche Metadaten**: thematische Schlagworte (*dc:subject*) oder die Beschreibung der dargestellten Handwerker-Szenen (*dc:description*).
576+
* **Bibliographische Metadaten**: Titel (`dc:title`), Identifier (`dc:identifier`, *Europeana-ID*), Rechte (`dc:rights`).
577+
* **Administrative Metadaten**: Angaben zu Datenprovidern, Aggregationsdiensten und Zugangs-URLs (`edm:provider`, `edm:isShownAt`).
578+
* **Fachspezifisch-inhaltliche Metadaten**: thematische Schlagworte (`dc:subject`) oder die Beschreibung der dargestellten Handwerker-Szenen (`dc:description`).
579579

580580
Im Kontext der Digitalisierung ist zusätzlich von **Paradaten** bzw. **Prozessmetadaten** zu sprechen, die im Europeana-Datensatz implizit mitschwingen, auch wenn sie nicht explizit aufgeführt sind. Dazu gehören etwa Kameraeinstellungen oder Farbprofile, die während der Erstellung des Digitalisats generiert wurden.[@FORRT_Paradata_2025]
581581

@@ -596,8 +596,8 @@ Legt fest, **in welchem Format einzelne Werte** codiert oder dargestellt sein m
596596
Am Beispiel *Knie Völkerschau* zeigt sich, wie einzelne Werte formal typisiert werden:
597597

598598
* `dc:title` ist ein einfacher Textstring in Originalsprache→ `xsd:string@de`
599-
* `dc:date` enthält den unsicheren Jahreswert `"1969?"`, typisiert als `xsd:string`, könnte aber in normierten Fällen auch `xsd:gYear` sein
600-
* `edm:language` verwendet ISO 639-1 Codes (`"da"` für Dänisch)
599+
* `dc:date` enthält den unsicheren Jahreswert `1969?"`, typisiert als `xsd:string`, könnte aber in normierten Fällen auch `xsd:gYear` sein
600+
* `edm:language` verwendet ISO 639-1 Codes (`da"` für Dänisch)
601601
* `dc:identifier` oder `edm:isShownBy` sind URIs → `anyURI`
602602

603603
#### **2\. Wertstandard *(Zulässige Werte für Felder)*** {#sec-2-wertstandard-zulässige-werte-für-felder}
@@ -606,8 +606,8 @@ Enthält normierte, kontrollierte Begriffe oder Referenzen. Diese dienen der **V
606606

607607
Das Beispiel *Knie Völkerschau* nutzt sowohl kontrollierte als auch freie Werte:
608608

609-
* `dc:type` enthält `"Still image"`, `"Poster"` – konform mit dem **AAT** oder **EDM Type Vocabulary**
610-
* `edm:country` ist `"Denmark"` → entspricht **ISO 3166-1 Alpha-2**
609+
* `dc:type` enthält `Still image"`, `Poster"` – konform mit dem **AAT** oder **EDM Type Vocabulary**
610+
* `edm:country` ist `Denmark"` → entspricht **ISO 3166-1 Alpha-2**
611611
* `dc:rights` verweist auf die **CC-Lizenz** [`http://creativecommons.org/licenses/by-nc-nd/4.0/`](http://creativecommons.org/licenses/by-nc-nd/4.0/)
612612
* `dc:subject` („Knie“, „Cirkus“, „Håndværker“) könnte auf eine kontrollierte Vokabularquelle wie **GND** oder **Wikidata** gemappt werden
613613

0 commit comments

Comments
 (0)