Einführung und Überblick

XML (i3.DATA)

Barbara Zengler
Fachhochschule Augsburg , Fakultät für Informatik , Studiengang Interaktive Medien
Wintersemester 2008/2009
Creative Commons License

This work is licensed under a Creative Commons
Attribution-NonCommercial-ShareAlike 2.5 License.

Abstract

Die Extensible Markup Language (XML) wurde im Jahr 1998 durch das World Wide Web Consortium (W3C) als Standard verabschiedet. Sie wurde vor dem Hintergrund der Expansion der Internetnutzung in Richtung applikationsspezifischer Formate erdacht. HTML als die "Sprache des Web" war rein zum web-basierten Publizieren von (Text-)Dokumenten erdacht. Mit XML hingegen eröffnete sich zum ersten Mal die Möglichkeit, Daten im Web maschinenlesbar und flexibel auszutauschen. Das Semantic Web versucht seit nunmehr einigen Jahren, mit XML-Mitteln semantische Information darzustellen und nutzbar zu machen. Mittlerweile hat sich die XML als weltweit akzeptiertes Austauschformat für maschinenlesbare und strukturierte Daten etabliert.

Inhalt (Diverses / Organisatorisches)

  1. Diverses / Organisatorisches [8]
  2. Was ist XML - Struktur der Vorlesung [4]
  3. Von Dokumenten und Daten - eine Einführung [16]

Über mich

Über Sie

© S. Hofschlaeger / PIXELIO

Über diesen Kurs

Vorlesungstermine

Termin Inhalt Praktikum
06. Oktober 2008 Einführungsveranstaltung Achtung: An diesem Tag kein Praktikum!
13. Oktober 2008 XML-Dokumente / Wohlgeformtheit Praktikumsaufgaben zum Vorlesungs-Thema
20. Oktober 2008 Namensräume Praktikumsaufgaben zum Vorlesungs-Thema
27. Oktober 2008 DTD / XML Schema Praktikumsaufgaben zum Vorlesungs-Thema
03. November 2008 XML Schema Praktikumsaufgaben zum Vorlesungs-Thema
10. November 2008 SAX Praktikumsaufgaben zum Vorlesungs-Thema
17. November 2008 DOM Praktikumsaufgaben zum Vorlesungs-Thema
24. November 2008 DOM Praktikumsaufgaben zum Vorlesungs-Thema
01. Dezember 2008 DOM, Ausgabe der Seminararbeiten Praktikumsaufgaben zum Vorlesungs-Thema
08. Dezember 2008 XPath Praktikumsaufgaben zum Vorlesungs-Thema
15. Dezember 2008 RDF und RSS Praktikumsaufgaben zum Vorlesungs-Thema
22. Dezember 2008 XSLT Praktikumsaufgaben zum Vorlesungs-Thema
12. Januar 2009 XFORMS Kleinere Praktikumsaufgabe + Fragestellungen zur Studienarbeit
19. Januar 2009 JAXB Fragestellungen zur Studienarbeit
26. Januar 2009 SVG und SMIL Fragestellungen zur Studienarbeit

Ablauf des Praktikums und der Studienarbeiten

Über dieses Skript

Nützliches

Weiterführende Links

Inhalt (Was ist XML - Struktur der Vorlesung)

  1. Diverses / Organisatorisches [8]
  2. Was ist XML - Struktur der Vorlesung [4]
  3. Von Dokumenten und Daten - eine Einführung [16]

Was sagt die Presse? - frühe Definitionsversuche

Vorlesungsstruktur (1/3)

Vorlesungsstruktur (2/3)

Vorlesungsstruktur (3/3)

Inhalt (Von Dokumenten und Daten - eine Einführung)

  1. Diverses / Organisatorisches [8]
  2. Was ist XML - Struktur der Vorlesung [4]
  3. Von Dokumenten und Daten - eine Einführung [16]

Kleine Geschichte der XML

Es haben im Grunde zwei Entwicklungen zur Entstehung der XML geführt. Zum einen stellt sie eine Weiterentwicklung generischer Auszeichnungssprachen wie der SGML dar, zum anderen hatte die Entwicklung des World Wide Web starken Einfluß auf ihre Entstehung.

Aber gehen wir das ganze chronologisch an...

Auszeichnungssprachen

Was sind Auszeichnungssprachen?

Auszeichnungssprachen beschreiben Information näher, d.h. sie sagen etwas über den Charakter der Information aus. Es handelt sich also um Information über Information, sog. Metainformation .

Beispiele: Korrekturfahnen bei Schulaufsätzen, Buchdruck (Hinweise zu Fettdruck, etc.)

Hypertext

Erste Ideen zum Konzept Hypertext gab es bereits um das Jahr 1950.

Hypertext

Bush's Lösung des Problems "schneller Zugang zu gesuchter Information":

Hypertext

1960 gründet Ted Nelson das XANADU Projekt und prägt den Begriff des Hypertext .

Hypertext (Zusammenfassung)

Beginnende technische Unterstützung

In den 60er Jahren begann die technische Unterstützung der Hypertext-Idee mit dem Aufkommen der ersten Rechenanlagen.

Die damals gewohnten, grafischen Symbole zur Textauszeichnung waren auf den Rechenanlagen nicht verfügbar, man mußte sich nach einer Alternative umsehen. Die Lösung waren beschreibende textuelle Pendants wie etwa Überschrift .

Wichtiges Konzept:

Von GML zu HTML

Von GML zu HTML

Weiterentwicklung der HTML - Browser War

Weiterentwicklung der HTML - semantische Sprachanteile

Zunehmend wurden in die HTML immer mehr semantisch auszeichnende Elemente aufgenommen.

Weiterentwicklung der HTML - Problem Semantik

Die Einführung semantischer Elemente in die HTML barg verschiedene Problematiken.

Semantik in der HTML war zum Scheitern verurteilt.

SGML für das Web

Das 1994 gegründete World Wide Web Consortium, das seitdem für die Weiterentwicklung und Standardisierung der HTML verantwortlich zeichnet, suchte nach einer besseren Lösung zur semantischen Auszeichnung von Dokumentinhalten.

Die Entwicklungsziele für XML

  1. Einfache Nutzung im Internet (im Gegensatz zur SGML als offline Dokumentationsformat)
  2. Unterstützung eines breiten Anwendungsspektrums (mehr als nur technische Dokumentation, wofür die SGML hauptsächlich genutzt wurde)
  3. Kompatibilität zur SGML (XML als echte Untermenge von SGML kann durch SGML Tools verarbeitet werden)
  4. Einfache Applikationsentwicklung (Untermenge XML erlaubt einfachere Entwicklung von verarbeitenden Applikationen)
  5. Minimierung optionaler Sprachmerkmale (Komplexitätsreduktion führt zu einfacherer Benutzbarkeit und einfachere Applikationsentwicklung)
  6. Lesbarkeit (für Mensch und Maschine)
  7. Kompakte Spezifikation (600 Seiten SGML Spezifikation gegeüner 30 Seiten XML-Spezifikation)
  8. Formaler und präziser Sprachentwurf (XML-Sprachentwurf sollte leicht, schnell und eindeutig in Werkzeuge implementierbar sein und damit von Anwendern schnell akzeptiert werden.)
  9. Leichte Dokumenterstellung (ohne spezielle Werkzeuge möglich)
  10. Nicht notwendigerweise knappes Markup (Auszeichnung in Textnotation im Fokus, Binärrepräsentation jedoch möglich.)

XML in 10 Punkten

Das W3C hat eine plakative Kurzcharakterisierung XML in 10 Punkten veröffentlicht, die als Abschluß unserer Einführung dienen soll.

  1. XML steht für strukturierte Daten:
    XML ist ein Satz an Regeln für die Erstellung von Textformaten zur Strukturierung von Daten. XMl ist datenorientiert, nicht präsentationsorientiert. XML ist keine Programmiersprache und man kann es auch als Nicht-Programmierer anwenden und lernen. XML ist erweiterbar und plattformunabhängig.
  2. XML sieht ein wenig wie HTML aus:
    Aufgrund der Verwandtschaft zur SGML ähneln sich die beiden Sprachen syntaktisch. Wie HTML verwendet XML Tags (durch < und > geklammerte Wörter). In der HTML sind jedoch die Bedeutung der Tags und Attribute festgelegt, in der XML werden diese nur zur Abgrenzung der Daten verwendet. Die Interpretation obliegt allein der verarbeitenden Anwendung.
  3. XML ist Text, aber nicht zum Lesen:
    Primärer Zweck des Einsatzes der XML ist der Datenaustausch zwischen Maschinen. Menschen können die XML sicherlich lesen, sollten dies aber eigentlich nicht tun (nur im "Notfall" oder wenn sie die XML lernen ;-) )
  4. XML ist vom Design her ausführlich:
    Gemeint ist, daß XML ein verboses (=geschwätziges) Format ist. Das W3C argumentiert, daß heute Speicherplatz günstig ist wie noch nie und Komprimierungsverfahren gang und gäbe sind. Dennoch sind XML-Dateien aufgrund ihrer Textbasiertheit immer größer als entsprechende Binärformate, dies kann man nicht abstreiten. Die Verwendung von XML birgt jedoch so viele Vorteile, daß dieser Nachteil mehr als ausgeglichen wird.
  5. XML ist eine Familie von Techniken:
    Hinter XML steht ein wachsender Satz an Modulen, die wichtige Aufgaben erledigen. In ihrer Gesamtheit sind sie sehr mächtig. Dazu gehören bspw. XLink für Hyperlinks in XML-Dokumenten, das XPointer Framework für den Zugriff auf Teile eines XML-Dokuments, die Extensible Stylesheet Language (XSL) , bestehend aus XSL Transformations (XSLT) , einer Sprache zur Transformation von XML-Dokumenten, und einem XML-Vokabular zur Spezifizierung von Formatierungsangaben (Stylesheets) sowie XML Schema, Teil 1 und Teil 2 zur genauen Definition der Daten in einem eigenen XML-basierten Format.
  6. XML ist neu, aber nicht so neu:
    XML erhebt nicht den Anspruch, vollkommen neu zu sein. Vielmehr werden bekannte und erprobte Konzepte aus der Informatik wiederverwendet und in einem neuen Verwendungskontext weiterentwickelt.
  7. XML überführt HTML in XHTML:
    XHTML hat gleich viele Elemente wie HTML, die Syntax ist aber ein wenig unterschiedlich, damit sie mit den XML-Regeln konform ist. XML löst die Abhängigkeit der HTML von der SGML auf, HTML wird auf der Basis von XML neu formuliert.
  8. XML ist modular:
    XML erlaubt die Wiederverwendung von Formaten (Kombination und Weiterbenutzung) für die Definition eines neuen Formats. Sprachen aus der XML-Familie können in freier Auswahl zur Lösung von Problemen verwendet werden.
  9. XML ist die Basis für RDF und das Semantic Web:
    Das Resource Description Framework (RDF) ist eine XML-basierte Sprache, um beliebige Quellen mit beschreibenden Daten anzureichern. Das Semantic Web nutzt diese Beschreibungen, um den sichtbaren Teil des Web mit einem Netz von Sinnzusammenhängen zu erweitern. Für Vereinbarungen über diese Sinnzusammenhänge (die Computer benötigen) werden überdies formale Beschreibungen, sogenannte Ontologien benötigt.
  10. XML ist lizenzfrei, plattformunabhängig und gut unterstützt:
    Zunächst ist XML eine kostenfrei zugängliche Spezifikation, die ohne Lizenzgebühren in eigenen Projekten und kommerziellen Produkten verwendet werden kann. Die Standardisierung in einem herstellerunabhängigen Gremium ist ein Versuch sicherzustellen, daß die Unabhängigkeit von einer bestimmten Plattform gewahrt werden kann. Zudem gibt es mittlerweile eine beinahe unüberschaubar große Menge an XML-Tools für die unterschiedlichsten Einsatzzwecke.

Weiterführende Links