Content from Forschungsdaten


Last updated on 2024-09-13 | Edit this page

Estimated time: 35 minutes

Overview

Questions

  • Forschungsdaten?
  • Teilen?
  • F.A.I.R.?

Objectives

  • Eingrenzen was Forschungsdaten sind
  • Reflektieren warum Forschungsdaten geteilt werden sollten
  • Einführung in die F.A.I.R.-Prinzipien

Was ist das?


Forschungsdaten sind die Grundlage wissenschaftlicher Erkenntnisse und können in unterschiedlichen Formen vorliegen.

Im Folgenden werden wir auf einige externe Seiten verweisen, die Ihnen einen Überblick über Forschungsdaten und deren Management geben.

Was zählt zu Forschungsdaten?

Studieren sie folgende Seite von Forschungsdaten.info und machen sie sich Notizen.

Sind das schon Forschungsdaten?

Reflektieren sie kurz über die folgende Frage:

Was macht eine Datei zu Forschungsdaten?

Üblicherweise handelt es sich bei Forschungsdaten um Rohdaten, denn das Filtern, Verarbeiten und Interpretieren der Daten im Rahmen einer Forschungsfrage beeinflusst die Daten und macht sie zu Ergebnisdaten. Zudem sollten die Daten strukturiert und dokumentiert sein, um sie für (sich selbst und) andere Forschende nachvollziehbar zu machen. Eine lose Textdatei mit Notizen oder eine Präsentation sind daher i.d.R. keine Forschungsdaten, sondern eher Ergebnisse oder Dokumentationen. Ob die Daten in einem nachnutzbaren Format vorliegen, ist zentral für die Wiederverwendbarkeit und wird durch die F.A.I.R.-Prinzipien adressiert, die wir bald kennenlernen werden.

Das heißt, Forschungsdaten sind nicht nur die Rohdaten, sondern auch die Metadaten, die Dokumentation und die Software, die zur Erhebung und Analyse der Daten verwendet wurde.

Warum teilen?


In der Vergangenheit wurden Forschungsdaten i.d.R. nicht publiziert, sondern nur die Ergebnisse der Forschung. Das hat sich in den letzten Jahren geändert, und es wird immer wichtiger, auch die Daten zu publizieren, um die Nachvollziehbarkeit und Wiederverwendbarkeit der Forschung zu gewährleisten.

Warum sollten Forschungsdaten geteilt werden?

Die folgende Seite von Forschungsdaten.info diskutiert

Und was hab ich davon?

Überlegen sie sich 3-4 Punkte, die für sie persönlich aus der Publikation von Forschungsdaten resultieren (könnten).

Die folgenden Punkte betreffen sowohl ihre eigene Forschung als auch die Forschung/Daten anderer.

  • Nachvollziehbarkeit: Forschungsergebnisse können überprüft werden
  • Wiederverwendbarkeit: Neue Forschung kann auf bestehenden Daten aufbauen
  • Vergleichbarkeit: Daten können mit anderen Daten verglichen werden
  • Nachhaltigkeit: Daten werden ggf. nicht doppelt erhoben
  • Sichtbarkeit: Forschung wird bekannter und Erhebungsaufwand wertschätzbar
  • Kollaboration: Kontakt zu anderen Forschenden, die an ähnlichen Themen arbeiten
  • Reputation: Wissenschaftliche Zitierbarkeit und Anerkennung von Datenerhebung
  • Förderung: Einige Fördergeber*innen verlangen die Publikation von Daten
  • Lehre: Daten können in der Lehre verwendet werden
  • Open Science: Beitrag zur offenen Wissenschaft und Wissenschaftskommunikation

F.A.I.R.-Prinzipien


Das Teilen von Daten wird durch die F.A.I.R.-Prinzipien unterstützt, die die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Daten fördern. Dies betrifft sowohl den eigenen Zugriff auf schon geteilte Daten als auch die Veröffentlichung eigener Daten.

Und was sind FAIRe Daten?

Auch dazu gibt es von Forschungsdaten.info eine schöne Seite.

Dokumentation, Dokumentation, Dokumentation

Warum nimmt Dokumentation bei Daten eine so große Rolle ein?

Formulieren sie 3-4 Fragen, die sie sich stellen würden, wenn sie Daten von jemand anderem erhalten und die ohne Dokumentation nicht zu beantworten wären!

Ohne oder bei eingeschränkter Dokumentation können folgende Fragen nicht beantwortet werden.

  • Welche Bedeutung haben die Daten/Werte/…?
  • Wurden die Daten verändert, gefiltert, nachbearbeitet?
  • Welche Rahmenbedingungen gab es bei der Datenerhebung?
  • Welche Software wurde zur Analyse verwendet?
  • Darf ich die Daten weiterverwenden?
  • Wie kann ich die Daten zitieren?
  • Wen kann ich bei Fragen kontaktieren?

Zusammenfassung


Key Points

  • Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
  • Forschungsdaten sollten geteilt werden.
  • Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten.
  • Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.

Einordnung im Datenlebenszyklus

Datenlebenszyklus}

Eigentlich in allen Phasen, da eine gute Dokumentation und Strukturierung der Daten die Nachvollziehbarkeit und Wiederverwendbarkeit in allen Phasen des Lebenszyklus unterstützt.

  • Planung: Dokumentation der Forschungsfrage und der zu verwendenden Daten/Quellen
  • Erhebung: Dokumentation der Rahmenbedingungen und der Datenerhebung
  • Analyse: Dokumentation der Analyse und der Software
  • Publikation: Teilen der Daten und Dokumentation
  • Archivierung: Langfristige Sicherung und Zugänglichkeit der Daten
  • Nachnutzung: Nachvollziehbarkeit und Wiederverwendbarkeit der Daten

Content from Finden und Zitieren


Last updated on 2024-09-13 | Edit this page

Estimated time: 50 minutes

Overview

Questions

  • Wo?
  • Wie?
  • Wer?

Objectives

  • Öffentliche Repositorien für Forschungsdaten
  • Gezielte Suche nach Forschungsdaten
  • Zitieren von Forschungsdaten

Um Forschungsdaten findbar und zugänglich zu machen, werden diese in speziellen Repositorien und Datenbanken abgelegt. Hierbei wird unterschieden in fachspezifische und allgemeine Repositorien. Die Datenbanken und Repositorien sind in der Regel öffentlich zugänglich und bieten die Möglichkeit, Daten zu suchen, zu finden und herunterzuladen.

Das Suchen und Finden von Forschungsdaten ist jedoch nicht immer so einfach, wie es klingt. Daher gibt es einige Tipps und Tricks, die die Suche erleichtern können.

Zudem muss geprüft werden, ob die Daten in einer Form vorliegen, die eine Wiederverwendung ermöglicht. Auch Lizenzfragen sind zu klären.

Final ist es wichtig, die gefundenen Daten korrekt zu zitieren, um die Quelle zu kennzeichnen und Wiederverwendung sichtbar zu machen.

All diese Punkte werden in einem Lernmodul der Friedrich-Alexander-Universität Erlangen-Nürnberg näher beleuchtet, welches im Folgenden durchgearbeitet werden soll

Lernmodul “Forschungsdaten suchen & nachnutzen”

Arbeiten sie sich durch das Lernmodul der Friedrich-Alexander-Universität Erlangen-Nürnberg.

Bitte auch die dortigen Wissenstests an den Seitenenden durchführen!

Zusammenfassung


Key Points

  • Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
  • Es gibt fachspezifische und allgemeine Repositorien.
  • Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
  • Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
  • Lizenzen müssen die Wiederverwendung erlauben.
  • Korrekte Zitation ist zentral in wissenschaftlicher Praxis.

Einordnung im Datenlebenszyklus

Datenlebenszyklus}

Datenrecherche und Zitation sind vorrangig zu Beginn und am Ende des Datenlebenszyklus wichtig.

  • Planung: Schlagworte etc. für spätere Suche festlegen
  • Erhebung: Wiederverwendung von Daten
  • Publikation: Zitation von verwendeten Daten
  • Archivierung: Festlegung von Metadaten, Identifiern und Lizenzen, um Wiederverwendung zu ermöglichen
  • Nachnutzung: Daten/Quellen identifizieren, bewerten und einordnen

Content from Digitale Daten


Last updated on 2024-09-13 | Edit this page

Estimated time: 60 minutes

Overview

Questions

  • Wie wird … gespeichert?
  • Was gibt es für Probleme?
  • Worauf muss man achten?

Objectives

  • Verständnis wie verschiedene Informationstypen digital repräsentiert sind
  • Wissen um die Grenzen und Schwierigkeiten von Informationsspeicherung
  • Lösungsstrategien für häufige Daten(import)probleme

Grundlegende Formen von Information sind Texte, Zahlen, Zeiten, Farben (für Bild und Video) und Audio. Wenn wir an diese denken, haben wir meistens eine Vorstellung von einem physischen Medium wie einem Blatt Papier etc., auf dem diese gespeichert sind. Eine solche Form der Informationsspeicherung wird als analoge Speicherung bezeichnet.

In Computern wird Information in Form von digitalen Daten gespeichert. Digital bedeuted, vereinfacht gesagt, dass die Information in Form von Zahlen gespeichert wird, die wiederum in Form von elektrischen Signalen (z.B. “Strom an oder aus”) repräsentiert werden. Letzteres ist die Grundlage für die Funktionsweise von Computern.

Das bedeutet, dass alle Informationen, die wir in Computern speichern, in Form von Zahlen repräsentiert werden muss. Eine weitere wichtige Eigenschaft von digitalen Daten ist, dass sie in diskreten Einheiten gespeichert werden, also i.d.R. in Form von ganzen Zahlen.

Im Folgenden werden wir uns mit den verschiedenen Arten von Information und deren digitaler Repräsentation beschäftigen.

Text


Text ist die einfachste Form von digitalen Daten. Text wird in Computern in Form von Zeichenketten gespeichert, das heißt einer Abfolge von Zeichen. Jedes Zeichen wird dabei durch eine Zahl repräsentiert, wobei die Zuordnung von Zeichen zu Zahlen durch eine Zeichenkodierung festgelegt wird. Letztere ist eine Tabelle, die jedem Zeichen eine Zahl zuordnet.

Die bekannteste und eine der ersten ist die ASCII-Kodierung (American Standard Code for Information Interchange), welche 128 Zeichen umfasst und im Folgenden dargestellt ist.

ASCII
ASCII-Kodiertabelle. Nichtsichtbare Steuerzeichen sind in eckigen Klammern angegeben.1

Wenn wir die Tabelle betrachten, fällt uns auf, dass nicht nur Buchstaben oder Ziffern, sondern auch Sonderzeichen und Steuerzeichen (z.B. Zeilenumbruch) enthalten sind. Zudem fehlen Umlaute und Sonderzeichen, die in anderen Sprachen verwendet werden.

Daher wurden im Laufe der Zeit weitere Zeichenkodierungen entwickelt, die mehr Zeichen umfassen. Hier ein paar Beispiele:

  • latin1 (ISO-8859-1): 256 Zeichen, enthält Umlaute und Sonderzeichen für westeuropäische Sprachen
  • latin2 (ISO-8859-2): 256 Zeichen, enthält Umlaute und Sonderzeichen für osteuropäische Sprachen
  • GB2312: 6.763 Zeichen, enthält chinesische Schriftzeichen
  • UTF-8: 1.112.064 Zeichen, enthält fast alle Schriftzeichen der Welt

Hierbei ist zu beachten, dass die erweiterten Zeichenkodierungen rückwärtskompatibel sind, d.h. die Zahlen-Buchstaben-Kodierungen der ersten 128 Zahlen entsprechen i.d.R. der “alten” ASCII-Kodierungen.

Aktuell ist UTF-8 die am weitesten verbreitete Zeichenkodierung, da sie fast alle Schriftzeichen der Welt umfasst und daher für die meisten Anwendungsfälle geeignet ist. Diese Kodierung wird auch von den meisten neueren Betriebssystemen und Anwendungen standardmäßig verwendet.

Kodierungsprobleme

Was kann passieren, wenn ein Text mit latin1-Kodierung abgespeichert wird (also in Zahlen umgewandelt wird) und anschliessend mit latin2-Kodierung gelesen wird (also die Zahlen wieder mit Buchstaben ersetzt werden)?

Es werden falsche Zeichen angezeigt, da die Zahlen-Buchstaben-Zuordnung nicht übereinstimmt.

Das Problem mit den verschiedenen Zeichencodierungen ist, dass beim Öffnen einer Datei mit einer anderen Codierung als der, in der sie gespeichert wurde, die Zeichen falsch dargestellt werden. Daher ist es wichtig, die Codierung einer Datei zu kennen, um sie korrekt lesen zu können. Ein deutliches Zeichen, dass die falsche Codierung verwendet wird, ist, wenn anstelle von Umlauten oder Sonderzeichen nur Fragezeichen oder andere Zeichen angezeigt werden, wie in folgendem Bild.

Kodierungsproblem
Kodierungsproblem

Dies tritt häufig auf, wenn man mit älteren Dateien arbeitet, was gerade im wissenschaftlichen Bereich in der Datennachnutzung von Daten immer wieder vorkommt.

Hinweis

In diesem Fall, muss man händisch die Codierung ändern, um den Text korrekt darzustellen. Hier bleibt häufig nichts weiter übrig, als die Codierung auszuprobieren, bis der Text korrekt dargestellt wird. Dabei ist es hilfreich, über den Ursprung der Datei Bescheid zu wissen.

Hier kommt wieder die Dokumentation von Daten ins Spiel!

Zeilenumbruch im Text

Ein weiteres Problem, das beim Lesen und Verarbeiten von Textdateien auftreten kann, ist der Zeilenumbruch, also das Zeichen, das angibt, dass eine neue Zeile beginnt. In aktuellen Betriebssystemen wird der Zeilenumbruch unterschiedlich abgespeichert:

  • Windows: \r\n (zwei Zeichen: Carriage Return und Line Feed)
  • Linux: \n (ein Zeichen: Line Feed)
  • MacOS: \r oder \n, je nach Alter des Betriebssystems (Carriage Return oder Line Feed)

Dies kann dazu führen, dass Textdateien auf einem Betriebssystem, auf dem sie nicht erstellt wurden, nicht korrekt dargestellt oder verarbeitet werden können.

Hinweis

Texteditoren wie Notepad++ oder Visual Studio Code können automatisch die Zeilenumbrüche in Textdateien erkennen und korrekt darstellen. Auch ist es dort möglich, die Zeilenumbrüche in einem Textdokument zu konvertieren, d.h. von einem Format in ein anderes zu ändern.

Notepad++
Im Notepad++ läßt sich der Zeilenumbruch durch Doppelklick anpassen. Gleiches gilt für das Textencoding (hier UTF-8).

Zahlen


Bei der Darstellung von Zahlen werden zwei Formen unterschieden: Ganzzahlen und Fließkommazahlen.

Ganzzahlen

Ganzzahlen, also 1, 13, 42, oder 987654321, werden in Computern durch ihre Zerlegung in 2er-Potenzen gespeichert. Zum Beispiel zerlegt sich 13 in 8+4+1, also 2^3 + 2^2 + 2^0. Im Computer selbst, können nur binäre Zustände, wie Strom an oder aus etc., gespeichert werden. Daher wird kodiert, ob eine 2er-Potenz in der Zahl enthalten ist oder nicht. Hieraus ergibt sich eine Binärdarstellung der Zahl. Im Beispiel der 13 also 1101, wobei die 1en die enthaltenen 2er-Potenzen repräsentieren und die Zahl wird (wie bei Dezimalzahlen auch) von rechts nach links gelesen, wobei die rechte Stelle 2^0 repräsentiert. Somit entspricht die Binärdarstellung 1101 der Dezimalzahl 13, da 2^3 + 2^2 + 2^0 = 8 + 4 + 1 = 13. Dies erlaubt die Speicherung beliebiger Ganzzahlen, solange genügend 2er-Potenzen zur Verfügung stehen, welche durch die maximale Länge der Binärdarstellung begrenzt ist.

Text => Ganzzahl => Binär

Da jedem Buchstaben über die Zeichenkodierung eine Zahl zugewiesen wird, und Ganzzahlen in Binärzahlen umgewandelt werden können, kann auch ein Text in Binärzahlen umgewandelt und gespeichert werden.

Binärzahlen

Normalerweise werden Zahlen in Dezimaldarstellung verwendet, also mit den Ziffern 0-9. Zahlen werden von rechts nach links gelesen, wobei jede Stelle eine 10er-Potenz repräsentiert und die Ziffer der jeweiligen Stelle der Faktor der entsprechenden 10er-Potenz ist. Hier ein Beispiel zur Illustration:

312 = 300 + 10 + 2= 3*100 + 1*10 + 2*1 = 3*10^2 + 1*10^1 + 2*10^0 = 312

Binärzahlen hingegen verwenden nur die Ziffern 0 und 1, folgen ansonsten aber den gleichen Regeln wie Dezimalzahlen. Sie werden also auch von recht nach links gelesen, wobei jede Stelle eine 2er-Potenz repräsentiert und die Ziffer der jeweiligen Stelle der Faktor der entsprechenden 2er-Potenz ist. Hier ein Beispiel zur Illustration:

1101 = 1*2^3 + 1*2^2 + 0*2^1 + 1*2^0 = 8 + 4 + 0 + 1 = 13

Wie auch bei Dezimalzahlen werden führende 0en meistens weggelassen, da sie keinen Einfluss auf den Wert der Zahl haben. Zudem können auch Binärzahlen addiert, subtrahiert, multipliziert und dividiert werden.

Die Binärdarstellung von Zahlen ist in der Informatik von großer Bedeutung, da sie die Grundlage für die digitale Speicherung und Verarbeitung von Zahlen in Computern bildet.

Frage

Welche Dezimalzahl repräsentiert die Binärzahl 1010?

Die 2er-Potenzen sind

  • 2^0 = 1
  • 2^1 = 2
  • 2^2 = 4
  • 2^3 = 8

Die Binärzahl 1011 entspricht der Dezimalzahl 10, da

1*2^3 + 0*2^2 + 1*2^1 + 0*2^0 = 8 + 0 + 2 + 0 = 10.

Bits und Bytes

Einzelne “01 Ziffern” einer Binärzahl werden bit genannt, was für “binary digit” steht.

Kolonnen von 8 Bits werden Byte genannt, was für “by eight” steht.

Ein Byte kann also 256 verschiedene Werte annehmen, da 2^8 = 256 verschiedene 01 Kombinationen mit 8 Stellen möglich sind.

Um Daten im Computer speichern, verwalten und abrufen zu können, ist es unumgänglich schon im Vorfeld zu wissen, wie viele Bits und Bytes für die jeweilige Information verwendt wurde. Andernfalls könnten zu wenige oder zuviele Bits gelesen werden, was zu einem falschen Ergebnis führen würde. Oder noch schlimmer: Datenoperationen überlappen, das heisst das Speichern einer Information überschreibt (ggf. auch nur teilweise) eine andere Information.

Um dies zu vermeiden und die Datenintegrität zu gewährleisten, wurden Standards festgelegt, welche die Anzahl der Bits und Bytes für verschiedene Datentypen festlegen. Hier ein paar Beispiele:

  • int (Integer): 4 Bytes (32 Bit)
  • long (Long Integer): 8 Bytes (64 Bit)
  • char (Character): 1 Byte (8 Bit)
  • float: 4 Bytes (32 Bit) - für Gleitkommazahlen
  • double: 8 Bytes (64 Bit) - für Gleitkommazahlen

Um negative Zahlen darstellen zu können, wird in der Regel das erste Bit als Vorzeichenbit verwendet. Dieses schränkt die Anzahl der darstellbaren Zahlen ein, da nur noch 7 Bit (bzw. 1 Bit weniger) für die eigentliche Zahlenrepräsentation zur Verfügung stehen.

Überlaufproblem

Da die Anzahl der Bits, die zur Speicherung einer Zahl zur Verfügung stehen, begrenzt ist, kann es zu einem Überlauf kommen. Ein Überlauf tritt auf, wenn das Ergebnis einer Berechnung mehr Stellen benötigt als die maximale Anzahl an Bits, die zur Speicherung zur Verfügung stehen. Hierbei werden die führenden Stellen einfach abgeschnitten, was zu einem falschen Ergebnis führt.

Beispiel unter der Annahme von 3 Bit Zahlendarstellung:

 7 + 3 = 111 + 011 = (1)010 (Dezimalzahl 10, aber 4 Bit nötig und nur 3 vorhanden > Überlauf)
                   = 010 (auf letzte 3 Bit reduzierte Speicherdarstellung)
                   = 2 (entsprechende Dezimalzahl, falsches Ergebnis)

Diese Problem ist heutzutage jedoch durch die Verwendung von 32 oder 64 Bit Zahlen in modernen Computern nur noch selten relevant.

Fließ- oder Gleitkommazahlen

Kommazahlen wie 0,0012 können auf verschiedene Arten geschrieben werden, z.B.

  • als Bruch 12/10000
  • als Dezimalzahl 0,0012
  • als wissenschaftliche Notation 1.2e-3 oder 1.2E-3

Die wissenschaftliche Notation kann auf zwei Arten interpretiert werden. Zum einen als mathematische Formel “1,2 * 10^-3 = 1,2 * 0,001 = 0,0012”. Alternativ kann auch herauslesen, dass das Komma in der Zahl 1.2 um 3 Stellen nach links verschoben werden muss, um die eigentliche Zahl 0,0012 zu erhalten.

Letztere Interpretation ist die, die in Computern verwendet und als Gleit- oder Fließkommazahl bezeichnet wird. Hierbei wird die Zahl in zwei Teile zerlegt: die Mantisse und den Exponenten. Die Mantisse enthält die eigentliche Zahl, also 1.5, 3.14159, oder 42.0, und der Exponent gibt (vereinfacht gesagt) an, um wie viele Stellen das Komma nach links oder rechts verschoben werden muss, um die eigentliche Zahl zu erhalten. Der Trick ist nun, dass sowohl Mantisse als auch Exponent als Ganzzahlen gespeichert werden können, für die wir schon eine Umrechnung in Binärzahlen kennen.

Dies funktioniert sehr gut für Zahlen, die sich als Potenzen von 10 darstellen lassen, wie 0,0012 = 1.2 * 10^-3. Für Zahlen, die sich nicht als Potenzen von 10 darstellen lassen, wie 1/3 = 0.3333333333333333…, kann es zu Rundungsfehlern kommen, da der Computer nur eine begrenzte Anzahl von Stellen für die Mantisse und den Exponenten speichern kann, da beide als Ganzzahl gespeichert werden. Dieses Problem ist in folgender Grafik verdeutlicht, indem verschiedene sehr kurze Mantissenlängen dargestellt sind.

floating point precission
Genauigkeit von Gleitkommazahlen hängt sehr stark von der Mantissenlänge (Anzahl Bits) ab und sinkt mit steigendem Abstand zu 0.2

Rundungsfehler beim Rechnen mit Fließkommazahlen

Da der Computer nur eine begrenzte Anzahl von Stellen für die Mantisse und den Exponenten speichern kann, kann es zu Rundungsfehlern kommen, wenn mit Fließkommazahlen gerechnet wird. Hier ein Beispiel unter Verwendung der Programmiersprache R.

Rundungsfehler in R
Das Ergebnis von 1/3 wird in den hinteren Stellen ungenau und das Ergebnis vom Quadrat der Wurzel von 2 ist nicht, wie erwartet, exakt 2.

Frage

Überlegen sie, wo derartige Rundungsprobleme zu Problemen führen könnten, sodass in diesen Bereichen mit anderen Datentypen gearbeitet werden sollte.

Ein Beispiel für ein Problem, bei dem Rundungsfehler zu Problemen führen können, ist die Berechnung von Zinsen.

Auch z.B. zur Berechnung von Marsmissionen oder anderen wissenschaftlichen Berechnungen, bei denen sehr genaue Ergebnisse erforderlich sind, werden andere Datentypen bzw. mathematische Tricks verwendet.

Sprachabhängige Zahlendarstellung

Ein häufiges Problem bei der Verarbeitung von Zahlen ist die sprachabhängige Darstellung von Zahlen. In Deutschland (und vielen Ländern Westeuropas) wird die Zahl 1000 als 1.000,00 geschrieben, während in den USA die gleiche Zahl als 1,000.00 geschrieben wird.

Das heisst das verwendete Trennzeichen für die “Nachkommastellen” und die Tausenderstellen ist unterschiedlich bzw. umgekehrt.

Solange Zahlen direkt in Binärform gespeichert und eingelesen werden, ist dies kein Problem, da nur die Darstellung der Zahl, nicht aber die Zahl selbst, von der eingestellten Benutzersprache abhängt.

Sobald jedoch Zahlen in Textform eingelesen oder ausgegeben werden, kann es zu Problemen kommen, wenn die Zahlen in einem anderen Format gespeichert sind, als das, in dem sie eingelesen werden sollen.

Wenn sie z.B. eine Datei mit der amerikanischen Notation 1,000 mit einer “deutschen” Software einlesen, wird die Zahl als 1 gelesen, da die deutsche Software das Komma als Dezimaltrennzeichen interpretiert.

Hinweis

Wenn sie fremde textbasierte Daten einlesen, sollten sie diese immer auf das verwendete Zahlenformat überprüfen, um sicherzustellen, dass die Zahlen korrekt eingelesen werden.

Alle Textdatenimportfunktionen in Programmiersprachen (wie Python oder R) und Datenverarbeitungssystemen (wie MS Excel) bieten die Möglichkeit, das zu importierende Zahlenformat anzugeben, um solche Probleme zu vermeiden.

Aber sie selbst müssen daran denken!

Zeit


Die Zeit wird in Computern als Anzahl von (Milli)Sekunden seit einem festgelegten Zeitpunkt gespeichert.

Dieser Zeitpunkt ist in der Regel der 1. Januar 1970 um 00:00:00 Uhr (UTC), auch als Unix-Zeit bekannt. Diese Darstellung hat den Vorteil, dass die Zeit als Ganzzahl gespeichert werden kann, was die Speicherung und Verarbeitung vereinfacht und Rundungsfehler vermeidet.

Jahr-2038-Problem

Ein Problem bei der Speicherung von Zeit als Ganzzahl ist das Jahr-2038-Problem. Lesen sie diesen Wikipedia-Artikel und erklären sie, warum es auftritt und welche Auswirkungen es haben könnte.

Das Jahr-2038-Problem tritt auf, weil die Unix-Zeit als vorzeichenbehaftete 32-Bit-Ganzzahl gespeichert wird.

Das heisst nicht alle 32 Bit sind für die Zahl selbst reserviert, sondern das erste Bit gibt das Vorzeichen an. Da die Unix-Zeit den 1. Januar 1970 als Nullpunkt hat, wird die Zeit in Sekunden seit diesem Zeitpunkt gespeichert. Da eine 32-Bit-Ganzzahl nur 2^32 = 4.294.967.296 verschiedene Werte speichern kann, wird die Unix-Zeit am 19. Januar 2038 um 03:14:07 Uhr UTC den Wert 2.147.483.647 erreichen. Da die Unix-Zeit als vorzeichenbehaftete Ganzzahl gespeichert wird, wird der Wert am 19. Januar 2038 um 03:14:07 Uhr UTC auf -2.147.483.648 springen, was zu einem Überlauf führt. Dieser Überlauf führt dazu, dass die Zeit wieder bei -2.147.483.648 beginnt, was dem 13. Dezember 1901 um 20:45:52 Uhr UTC entspricht.

Farben


Farben werden in Computern z.B. als RGB-Werte gespeichert, also als Kombination von Rot-, Grün- und Blauanteilen des jeweiligen Lichtes. Jeder dieser Anteile wird als Zahl zwischen 0 und 255 gespeichert, wobei 0 für keinen und 255 für den maximalen Anteil des jeweiligen Farbtons steht. Das es sich um “Lichtfarben” handelt, wird somit die Farbe Weiß als (255, 255, 255) und die Farbe Schwarz als (0, 0, 0) gespeichert.

Da es sich um Ganzzahlen handelt, können diese auch in Binärform gespeichert werden, wobei die 8 Bit für jeden Farbton die Binärdarstellung der Zahl zwischen 0 und 255 darstellen. Aufgrund der diskreten Werte für die Farbanteile sind Farbverläufe nicht stufenlos sondern nur in diskreten Schritten möglich.

Neben RGB gibt es auch andere Farbmodelle, wie z.B. CMYK (Cyan, Magenta, Yellow, Key) für den Druck oder HSV (Hue, Saturation, Value) für die Farbdefinition. Auch hier werden die Farben als Zahlen gespeichert, wobei die Umrechnung zwischen den verschiedenen Farbmodellen durch mathematische Formeln erfolgt.

Farbkodierung liefert die Grundlage für Bild- und Videodaten, die selbst wieder in verschiedensten Formaten gespeichert werden können.

Frage

Wenn sie im Farbkasten Rot, Grün und Blau mischen, entsteht i.d.R. nicht weiß, sondern ein Braunton. Warum ist das so?

Die Farben im Farbkasten sind Pigmente, die das Licht absorbieren und nur bestimmte Farben reflektieren. Wenn sie Rot, Grün und Blau mischen, absorbieren sie fast alles Licht, sodass die Mischung dunkel erscheint.

In folgendem Bild sehen sie, dass die unterschiedlichen Farbmodelle nur Teile des vom Menschen sichtbaren Farbraums abdecken.

RGB und CMYK Farbraeume
Darstellbare Farben im RGB- (gelb) und CMYK-Farbraum (blau) im Vergleich zum sichtbaren Bereich des Menschen 3.

Testimonial

Die Diskretisierung der Farbwerte kann zu Farbverlust führen, wenn die Farben in einem anderen Farbmodell gespeichert und wieder in RGB umgewandelt werden.

Hinweis

Daher sollte die Umwandlung zwischen den Farbmodellen nur dann erfolgen, wenn es unbedingt notwendig ist, am besten nach der Bildbearbeitung.

Für weiterführende Informationen rund um die Farbmodelle RGB und CMYK, ihrer Unterschiede und Umwandlung empfehlen wir folgende Seite.

Audio


Auch Audiodaten werden als Zahlen gespeichert, wobei die Amplitude des Schallsignals als Zahl gespeichert wird. Die Amplitude wird in der Regel als Zahl zwischen -1 und 1 gespeichert, wobei -1 für den minimalen und 1 für den maximalen Schalldruck steht. Da es sich um eine kontinuierliche Größe handelt, wird die Amplitude in der Regel als Gleitkommazahl gespeichert, um eine möglichst genaue Repräsentation des Schallsignals zu erhalten.

Zusammenfassung


Key Points

  • Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
    • Text via Zeichenencodingstabellen
    • Gleitkommazahlen z.B. durch Mantisse und Exponent
    • Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
    • Farben z.B. durch RGB-Werte
  • Ganzzahlen können in Binärform gespeichert und verarbeitet werden
    • dabei in 2er-Potenzen zerlegt
    • Interpretation analog zu Dezimalzahlen (rechts nach links, …)
    • Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
    • 8 Bit = 1 Byte
    • Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
  • Probleme digitaler Informationsrepräsentation
    • Überlaufproblem bei zu großen Zahlen
    • Diskretisierung von kontinuierlichen Größen
      • Rundungsfehler bei Gleitkommazahlen
      • Verlust von Genauigkeit bei zu kleinen/großen Zahlen
    • Kodierungsprobleme bei Textimport
      • Sprachabhängige Darstellung von Zahlen
      • Unterschiedliche Zeichenencodings

Einordnung im Datenlebenszyklus

Datenlebenszyklus
In welchen Phasen im Datenlebenszyklus sehen sie obige Punkte als besonders wichtig an?

Das Wissen um die digitale Repräsentation von Informationen ist immer dann zentral, wenn Daten importiert oder exportiert werden, um sicherzustellen, dass die Daten korrekt übertragen und gespeichert werden.

  • Planung: Festlegung von Datenformaten und -strukturen
  • Erhebung: Korrekte Interpretation von Daten
  • Archivierung: Export von Daten in geeigneten Formaten
  • Nachnutzung: korrekter Datenimport und -export

  1. Quelle - Wikimedia Commons - 07.08.2024↩︎

  2. Quelle - Roland Illig - Wikimedia Commons - 07.08.2024↩︎

  3. Quelle - aufkleberdrucker24.de - 12.09.2024↩︎

Content from Dateiformate


Last updated on 2024-11-07 | Edit this page

Estimated time: 40 minutes

Overview

Questions

  • Binär vs. Text?
  • Dateiformate?
  • Was für was?

Objectives

  • Verständnis dafür wie Daten gespeichert werden
  • Wissen um gängige Dateiformate zur Datenhaltung
  • Überblick welche Formate für welche Daten und Zwecke geeignet sind

Um Daten zu speichern oder weitergeben zu können, müssen sie in einer Datei abgelegt werden. Damit die Daten auch später wieder gelesen und verarbeitet werden können, muss dies in einer festgelegten Art und Weise geschehen, was durch das Dateiformat bestimmt wird. Damit man später noch weiss, welches Dateiformat verwendet wurde, wird dieses durch eine entsprechende Dateiendung (engl. file extension) hinterlegt. Die Dateiendung ist also lediglich ein Hinweis darauf, in welchem Format die Daten abgelegt sind, hat darüber hinaus aber keine weitere Bedeutung.

Binär vs. Text


Dateien können entweder in binärer oder Textform abgelegt werden. Dazu müssen wir uns erinnern, dass jedwede Information in einem Computer als Ganzzahl kodiert und diese in Binärzahlen, also einer Abfolge von Bits (0 und 1), repräsentiert und verwaltet werden.

Nun gibt es zwei Möglichkeiten, wie diese computerinterne Datenrepräsentation in einer Datei abgelegt werden kann.

Am kompaktesten und effizientesten ist es, die interne Binärdatendarstellung direkt als Binärdaten in einer Datei abzulegen, also als eine Abfolge von 0 und 1. Dieses wird als sogenannte binäre Datei bezeichnet. Dies hat den Vorteil, dass die Daten sehr schnell und effizient gelesen und geschrieben werden können, da keine Umwandlung notwendig ist. Allerdings sind binäre Dateien für Menschen nicht lesbar, da sie nur aus einer Abfolge von 0 und 1 bestehen, sodass keine Interpretation oder Inspektion der Daten möglich ist. Zudem sind binäre Dateien nicht oder nur bedingt portabel, da sie von der internen Datenrepräsentation des Computers und des verwendeten Anwendungsprogramms abhängen und daher nicht ohne weiteres auf anderen Systemen oder mit anderer Software gelesen werden können.

Daher werden binäre Dateiformate in der Regel nur für spezielle Anwendungen verwendet, bei denen es auf Geschwindigkeit und Effizienz ankommt, oder wenn die Daten nicht von Menschen gelesen werden müssen. Zudem sind binäre Dateiformate in der Regel spezialisiert und proprietär1, d.h. sie sind nur für bestimmte Anwendungen oder Programme geeignet und können nicht ohne weiteres von anderen Programmen gelesen oder verarbeitet werden.

Aufgrund dessen sind binäre Dateiformate in der Regel nicht für den allgemeinen Datenaustausch oder die Langzeitarchivierung geeignet.

Stattdessen werden Daten, die ausgetauscht oder archiviert werden sollen, in der Regel in Textform abgelegt. Hierbei werden die internen Binärdaten in eine menschlich lesbare Form umgewandelt, z.B. in Buchstaben, Zahlen oder Sonderzeichen, und als Text in einer Datei abgelegt. Dieser muss nicht zwingend in einer menschenlesbaren Form sein, sondern kann auch in einer maschinenlesbaren Form abgelegt werden, z.B. als strukturierte Daten oder in einer speziellen Syntax.

Grundlegend ist aufgrund der Textform jedoch gesichert, dass die Daten in einer Form abgelegt sind, die unabhängig von der computerinternen Datenrepräsentation ist und daher portabel und unabhängig von der verwendeten Software oder dem Betriebssystem ist.

Ist das binär oder textbasiert?

Um zu überprüfen, ob eine Datei binär oder textbasiert ist, können Sie die Datei einfach mit einem Texteditor öffnen. Dies ist mit jeder Datei möglich, unabhhängig von der Dateiendung oder dem Dateiformat!

Wenn die Datei text-basiert ist, können Sie den Inhalt lesen und bearbeiten. Falls nicht, wird der Inhalt der Datei als unleserlicher Text oder als Zeichenfolge von Sonderzeichen angezeigt, wie in folgendem Beispiel.

Binärdatei im Texteditor
JPEG Bilddatei in einem Texteditor geöffnet zeigt nur wirre Sonderzeichen. Dies deutet auf ein binäres Dateiformat hin.

Sie sind dran ..

Öffnen Sie in einem Texteditor ihrer Wahl eine MS Excel Datei und eine PDF Datei.

Was sehen Sie? Sind die Dateiformate binär oder textbasiert?

Die Excel-Datei wird als unleserlicher Text oder als Zeichenfolge von Sonderzeichen angezeigt, da sie im binären XLSX-Format gespeichert ist. Letzteres ist eigentlich ein komprimiertes ZIP-Archiv, das verschiedene Dateien und Ordner enthält, die die Tabellenkalkulation und die Daten enthalten.

Die PDF-Datei wird je nach Inhalt als Mix aus lesbarem Text und Sonderzeichen angezeigt. Das PDF-Format ist ein Hybridformat, in dem bestimmte Inhalte (wie Bilder) in einem binären Format gespeichert sind, während der Text z.T. in einer menschenlesbaren Form abgelegt ist.

Doch dazu später mehr…

Standard vs. Spezialformat

Die Wahl des Dateiformats hängt stark von der Art der Daten und ihrer Verwendung ab. Für den allgemeinen Datenaustausch und die Langzeitarchivierung sind Textformate in der Regel besser geeignet, da sie portabel, unabhhängig und zukunftssicher sind. Für den internen Gebrauch oder spezielle Anwendungen können jedoch auch binäre Formate sinnvoll sein, da sie schneller und effizienter sind und spezielle Funktionen oder Eigenschaften bieten können.

Daher sollten Rohdaten und Metadaten in einem Standardformat abgelegt werden, das von verschiedenen Programmen und Systemen gelesen und verarbeitet werden kann. Zudem sollten am Ende des Forschungsprozesses zur Publikation die finalen, verarbeiteten Daten in Standardformaten abgelegt werden, um die Nachnutzung und Langzeitarchivierung zu erleichtern.

Während des Forschungsprozesses können jedoch auch spezielle oder proprietäre Formate verwendet werden, um die volle Leistungsfähigkeit und Funktionalität der verwendeten Software auszuschöpfen.

Im Folgenden werden wir einige der gängigsten Dateiformate für den Datenaustausch und die Langzeitarchivierung vorstellen und ihre Verwendungszwecke und Eigenschaften erläutern.

Nur Text


Die einfachste Möglichkeit beliebige Information zu speichern ist in Form von unformatierten Textdateien. Diese enthalten nur eine texttuelle Repräsentation der Information in Form von Buchstaben, Zahlen und Sonderzeichen, und haben darüber hinaus keine spezielle Struktur oder Formatierung.

Derartige Dateien werden i.d.R. mit der Dateiendung .txt versehen und können mit jedem Texteditor geöffnet und bearbeitet werden. Hierbei ist zu beachten, das MS Word oder andere Textverarbeitungsprogramme nicht als Texteditor geeignet sind, da sie zusätzliche Formatierungen und Metadaten in die Datei schreiben, die den reinen Textinhalt verfälschen.

Geeignete Texteditoren sind z.B.

  • Notepad++ (Windows),
  • TextEdit (Mac),
  • gedit (Linux) oder
  • Microsoft Windows Editor.

Wenn die Textdatei in einer strukturierten Form vorliegt, d.h. wenn die Information in Zeilen und Spalten organisiert oder durch spezielle Schlüsselwörter oder Trennzeichen strukturiert ist, dann spricht man von einem textbasiertem Dateiformat.

Formattierter Text


Markdown

Dateiendungen: .md, .markdown

Markdown ist eine einfache Auszeichnungssprache für Textdateien. Das heisst, einzelne Textabschnitte können mit speziellen Zeichen oder Schlagworten versehen werden, um ihre Formattierung zu bestimmen. Die Formatierung selbst geschieht in einem nachfolgenden Verarbeitungsschritt, bei dem der formatierte Text in einem geeigneten Format, z.B. HTML, PDF, .., abgespeichert wird.

Markdownbeispiel
Beispiel einer Markdown-Datei (links) und einer gerenderten Ausgabe (rechts).2

Studieren sie folgende Webseite, in der Markdown und seine Anwendungen erklär werden:

Da die Formatierung von Markdown immer in einem separaten Schritt erfolgt, ist es sinnvoll einen Editor zu verwenden, der die Formatierung in Echtzeit anzeigt. Im Rahmen des Kurses (und ggf. auch darüber hinaus) empfehlen wir daher den Onlineeditor dillinger.io, welcher ohne Registrierung oder Installation genutzt werden kann.

Challenge

Verwenden sie den Onlineeditor dillinger.io um ein einfaches Markdown-Dokument zu erstellen.

Versuchen sie darin einige der kleinen “Best Practice” Tipps, welche auf der Webseite Markdown Guide - Basic Syntax vorgestellt werden.

Testimonial

Markdown wird sehr häufig für Dokumentationen, Readme-Dateien und auch für einfache Webseiten verwendet. (Auch diese Webseite wurde basierend auf Markdown erzeugt!)

In diesem Kurs werden wir daher ab sofort Markdown für (fast) alle Dokumentationen verwenden, um dies zu üben.

Sie können daher dillinger.io schon direkt zu ihren Lesezeichen im Browser hinzufügen.

.md Dateiendung mit Texteditor verknüpfen

Dateiendungen dienen vorrangig dazu, dass das Betriebsystem automatisch erkennt, mit welchem Programm eine ausgewählte Datei geöffnet werden soll. Für Markdowndateien mit der Dateiendung .md ist in den meisten Betriebssystemen keine solche Assoziation mit einem “Standardprogramm” direkt vorhanden. Daher sollte diese eingerichtet werden, wenn man häufiger, wie in diesem Kurs, mit Markdown Dateien arbeiten möchte.

Aufgabe:

  • Exportieren sie ihre Markdown-Spielerei aus der letzten Aufgabe aus dillinger.io heraus
    • dazu oben rechts “Export as” > “Markdown” auswählen
  • Speichern sie die Datei auf ihrem Computer an einem Ort ihrer Wahl (den sie wiederfinden…)
  • Setzen sie als Standardprogramm zum Öffnen von Markdown-Dateien ihren Texteditor
  • Versuchen sie nun die heruntergeladene Datei zu öffnen (z.B. via Doppelklick)
    • Ziel ist es, das nun ihr installierter Texteditor die Markdown-Datei anzeigt

HTML

Dateiendungen: .html, .htm

Ähnlich wie Markdown ist auch HTML (HyperText Markup Language) eine Auszeichnungssprache, die zur Strukturierung von Texten in Webseiten verwendet wird. Im Gegensatz zu Markdown ist HTML jedoch deutlich komplexer und ermöglicht eine detaillierte Strukturierung und Formatierung von Texten und zusätzlichen Inhalten (z.B. Bilder, Videos, …). HTML-Dateien können mit jedem Texteditor geöffnet und bearbeitet werden, jedoch ist zur Anzeige der Formatierung ein Webbrowser erforderlich. Das heißt, analog wie bei Markdown, muss der HTML-Code erst durch ein Programm (i.d.R. dem Browser) interpretiert und dargestellt werden.

HTML-Beispiel
Beispiel für eine einfache Webseite. Links der HTML-Code, rechts die dargestellte Webseite.3

Webseiten bestehen aus einer Kombination von HTML, CSS und Javascript, wobei

  • HTML die Struktur und den Inhalt der Seite definiert,
  • CSS das Aussehen und die Formatierung steuert und
  • Javascript die Interaktivität und Funktionalität hinzufügt.

Webseiten werden häufig zur Präsentation, Publikation oder Dokumentation von Forschung und deren Daten verwendet.

Aufgrund der zugrundeliegenden Struktur von HTML-Dateien, kann man teilweise auch direkt aus Webseiten die präsentierten Daten extrahieren. Dies nennt sich Web Scraping. Allerdings ist eine zusätzliche Bereitstellung der Daten in einem datenfokussierten Dateiformat (z.B. CSV, JSON) meist sinnvoller und empfohlen.

PDF

Das Portable Document Format (PDF) ist ein Dateiformat, das entwickelt wurde, um Dokumente unabḧängig von Anwendungen, Betriebssystemen oder Hardwareplattformen anzuzeigen und auszudrucken. Damit ist es möglich, Dokumente so zu speichern, dass sie auf jedem Gerät gleich aussehen, was bei Markdown und HTML nicht der Fall ist.

PDF-Dateien können Text, Bilder, Links, Formulare, Audio- und Videodateien enthalten und sind daher ein weit verbreitetes Format für die Präsentation und den Austausch von Dokumenten. Auch ist es möglich, die Bearbeitung, Druckbarkeit, … von PDF-Dateien zu beschränken, um die Integrität und Authentizität von Dokumenten zu gewährleisten. Allerdings sind diese Sicherheitsfeature nur bedingt wirksam und können durchaus umgangen werden.

PDF Dateien sollten für “Endprodukte” verwendet werden, die nicht mehr verändert werden sollen, z.B. für Berichte, Präsentationen, Publikationen, etc. Sie sind wenig geeignet für die Zusammenarbeit und Weiterverarbeitung von Daten, da sie nicht so einfach zu bearbeiten sind wie Textdateien oder textbasierte Dateiformate.

Grundlegend kann (fast) jedes PDF-Dokument mit einem entsprechenden Editor (z.B. Adobe Acrobat oder verschiedenen Onlinetools) bearbeitet werden. Allerdings erfolgt die Bearbeitung in der Regel nicht im Quellcode, sondern in einer grafischen Benutzeroberfläche, da das PDF-Format einen Mix aus Text- und Binärinformationen enthalten kann.

PDF editieren

Nehmen sie ein beliebiges PDF-Dokument und versuchen sie es mit einem PDF-Editor zu bearbeiten. Hierfür finden sich auch zahlreiche kostenlose Online-Tools.

DOCX, ODT, …

Um formatierte Texte zu schreiben und zu speichern werden häufig Textverarbeitungsprogramme wie Microsoft Word, Google Docs oder LibreOffice Writer verwendet.

Häufige Dateiendungen für derartige Textverarbeitungsdateien sind:

  • .docx - Microsoft Word (von Microsoft entwickelter Standard)
  • .odt - OpenDocument Text (quelloffener freier Standard)

Diese Dateiformate enthalten neben dem reinen Text auch Informationen zur Formatierung, Schriftart, Farben, Autor, … und können daher nicht direkt in einem Texteditor geöffnet und bearbeitet werden. Allerdings können sie in Textdateien (z.B. Markdown) oder PDF-Dateien konvertiert werden, um sie einfacher zu teilen oder zu archivieren.

Da diese Dateiformate proprietär sind, kann es zu Kompatibilitätsproblemen kommen, wenn sie von verschiedenen Programmen oder Versionen geöffnet werden. Das heißt, dass die Formatierung oder der Inhalt der Datei möglicherweise nicht korrekt angezeigt wird, wenn sie in einem anderen Programm geöffnet wird.

Daher wird empfohlen, für Dokumentationen und Texte, die geteilt oder archiviert werden sollen, stattdessen reine Textdateien, textbasierte Dateiformate oder PDF-Dateien zu verwenden.

Dokumentation in .md oder .docx?

Warum ist es besser, Dokumentationen und beschreibende Texte in Markdown-Dateien statt in Word-Dokumenten zu speichern?

  • Plattformunabhängigkeit: Markdown-Dateien können auf jedem Betriebssystem und mit jedem Texteditor geöffnet und bearbeitet werden, während Word-Dokumente ein entsprechendes Textverarbeitungsprogramm benötigen.
  • Versionierung: Markdown-Dateien können leichter in einem Versionskontrollsystem (z.B. Git) gespeichert und lokale Änderungen dokumentiert werden.
  • Flexibilität: Markdown-Dateien können einfacher (automatisiert) in beliebige Formate (z.B. HTML, PDF) oder auch Präsentationsformen (Webseite, Buch, …) konvertiert werden.

Programmierskripte


Neben reiner Textinformation werden auch Programmierskripte in Textdateien abgelegt. Diese enthalten Anweisungen und Befehle, die von einem Computer ausgeführt werden können, um bestimmte Aufgaben zu erledigen. Die Skripte werden in einer Programmiersprache geschrieben, die speziell für die Erstellung von Programmen und Skripten entwickelt wurde. Zur Dokumentation und Weitergabe von (Forschungs)Daten ist es daher häufig wichtig, auch die verwendeten Programmierskripte zu speichern und zu teilen. Daher sollten sie gängige Programmiersprachen und -skripte kennen, um derartige Dateien identifizieren zu können.

Einige wichtige Dateiendungen für Programmierskripte sind:

  • .py - Python
  • .R - R
  • .js - Javascript
  • .sh - Shell - Linux/MacOS Kommandozeile
  • .bat - Batchskripte - MS DOS/Windows Kommandozeile
  • .ps1 - Powershellskripte - erweiterte MS Windows Kommandozeile

Markdown wird auch sehr häufig in Verbindung mit Programmiersprachen verwendet, um Codebeispiele und Dokumentationen zu erstellen. Zudem wurden “Hybridformate” entwickelt, die sowohl Markdown für Beschreibungen als auch direkt auszuführende Programmieranweisungen enthalten. Beispiele hierfür sind:

  • Jupyter Notebooks (.ipynb),
  • R Markdown (.Rmd) oder R Notebooks (.Rnb).

Diese Formate ermöglichen es, Code und Dokumentation bzw. Interpretation in einem Dokument zu kombinieren und interaktiv auszuführen, was sie besonders für die Datenanalyse und -visualisierung geeignet macht. Zudem können sie in verschiedene Formate exportiert werden, z.B. als HTML, PDF oder Präsentation, was sie für die Veröffentlichung und den Austausch von Ergebnissen nützlich macht. Auch hier gilt, dass ggf. nicht nur das erzeugte finale Dokument, sondern auch das ursprüngliche Notebook gespeichert und geteilt werden sollte, um die Nachvollziehbarkeit und Reproduzierbarkeit der Analyse zu gewährleisten.

Tabellen


Dateiendungen:

  • textbasierte Formate, z.B.
    • .csv - Comma Separated Values
    • .tsv - Tab Separated Values
  • binäre Formate, z.B.
    • .xls, .xlsx - MS Excel
    • .ods - OpenDocument Spreadsheet

Bei der Datenerhebung, -verarbeitung oder zur -archivierung werden Daten häufig in tabellarischer Form gespeichert. Hierbei werden die Daten in Zeilen und Spalten organisiert, wobei in einzelnen Spalten nur Informationen der gleichen Form (Zahl, Text, ..) gelistet werden.

Beispiel tabellarischer Daten
Tabellarische Daten sind die häufigste Form der Datenerhebung.

Tabellen können in textbasierten Formaten (z.B. CSV) oder binären Formaten (z.B. XSLX) digital gespeichert werden. Textbasierte Formate sind plattformunabhängig und können in jedem Texteditor geöffnet und bearbeitet werden, während binäre Formate spezifische Programme erfordern und ggf. zu Kompatibilitätsproblemen führen können. Zudem werden zur Verarbeitung von binären Formaten in Programmiersprachen häufig zusätzliche Funktionalitäten (Pakete) benötigt, was die Verwendung und Nachnutzung erschweren kann.

Eine der häufigsten Formen der tabellarischen Daten ist das CSV-Format (Comma Separated Values), bei dem die Daten durch Kommas getrennt in einer Textdatei gespeichert werden. Eine mögliche CSV-Repräsentation der obigen Tabelle ist wie folgt.

Nr,Tag,Wo
1,Mo,Zoom
8,Di,?

Problematisch …

Welche Probleme sehen sie mit der obigen CSV-Kodierung der Tabelle? Was kann problematisch werden?

  • Spaltentrennzeichen: Da es sich um einen deutschsprachigen Datensatz mit Zahlen handelt, kann es zu Problemen mit dem Spaltentrennzeichen “,” kommen, falls Dezimalzahlen z.B. “2,34” im Datensatz auftreten. In diesem Fall wäre es nicht eindeutig, ob das Komma ein Spalten- oder Dezimaltrennzeichen ist. Das gleiche Problem ergibt sich, wenn komplette Sätze (die potentiell Kommas enthalten) gespeichert werden. Daher hat sich im westeuropäischen Raum das Semikolon “;” als Trennzeichen etabliert (welches auch als CSV2-Format bezeichnet wird). Alternativ kann auch das TSV-Format verwendet werden, das Tabulatoren als Spaltentrenner verwendet.
  • Fehlende Daten: Hier wurden fehlende Daten mit “?” vermerkt. Während dies für menschliche Augen ein hilfreicher Hinweis sein kann, ist er für die automatische Datenverarbeitung schlecht geeignet. Wenn einzelne Daten fehlen, sollte in der jeweiligen Spalte einfach keine Information angegeben werden. In diesem Falle also besser “8,Di,”.
  • Textkodierung: Da der Datensatz Text enthält, können beim Import Probleme mit der Zeichenkodierung auftreten. Aktuell wird empfohlen UTF-8 zu verwenden.

Kommentare und Metadaten

CSV sieht i.d.R. keine Kommentare, Metadaten, etc. vor. Daher sollten diese Informationen in einer separaten Datei oder in einem anderen Format gespeichert werden. Falls unbedingt nötig, werden Kommentare in CSV-Dateien i.d.R. in den ersten Zeilen gelistet und durch spezielle Zeichen (z.B. #) am Anfang der Kommentarzeilen markiert. Damit ist es möglich, diese beim Import zu überspringen oder zu ignorieren

Hierarchische Daten


Dateiendungen:

  • .json - JavaScript Object Notation
  • .xml - Extensible Markup Language
  • .yaml - YAML Ain’t Markup Language

Eine Alternative zur tabellarischen Datenspeicherung bieten hierarchische Datenformate, die Informationen in einer verschachtelten Struktur speichern. Hierbei können Daten in beliebiger Tiefe und Komplexität organisiert werden, was sie besonders für die Speicherung von Metadaten oder strukturierten Daten geeignet macht. Zudem liefert diese Form der Datenrepräsentation direkt die Möglichkeit, Zusammenhänge und Beziehungen zwischen den Daten zu speichern.

JSON

JSON (JavaScript Object Notation) ist, wie der Name schon sagt, ein auf der Programmiersprache JavaScript basierendes Format, das Daten in einem hierarchischen Format speichert. Einzelne Datensätze werden wie folgt repräsentiert:

JSON

{
  "Nr": 1,
  "Tag": "Mo",
  "Ort": "Zoom"
}

Hierbei werden die Daten in Doppelpunkt-getrennten Schlüssel-Wert-Paaren gespeichert, wobei die Werte beliebige Datentypen annehmen können (Zahlen, Text, Listen, …). Datensätze selbst werden durch geschweifte Klammern {} begrenzt, wobei die einzelnen Schlüssel-Wert-Paare durch Kommas getrennt werden. Diese Struktur kann beliebig tief verschachtelt werden, um komplexe Datenstrukturen abzubilden. In unserem Beispiel können wir die Informationen für mehrere Treffen wie folgt speichern:

JSON

{
  "Termine" : [
    {
      "Nr": 1,
      "Tag": "Mo",
      "Ort": "Zoom"
    },
    {
      "Nr": 8,
      "Tag": "Di",
      "Ort": null
    }
  ]
}

Hierbei werden die einzelnen Treffen in einer Liste Termine mit eckigen Klammern [] zusammengefaßt, welche wiederum die einzelnen Treffen als JSON-Objekte enthält. Wichtig: die Liste selbst ist auch wieder ein JSON-Objekt, das in geschweiften Klammern {} eingebettet wird (die “äußeren” Klammern umfassen den Datensatz). Einrückung, Zeilenumbrüche und Leerzeichen sind rein zur besseren Lesbarkeit erlaubt, können aber weggelassen werden. Letzteres ist insbesondere bei großen Datenmengen sinnvoll, um die Dateigröße zu reduzieren.

Beachten sie, dass es hier (im Gegensatz zu CSV) keine Probleme mit dem Komma als Trennzeichen gibt, da die Daten in einem strukturierten Format gespeichert sind. Zudem werden fehlende Daten durch null repräsentiert, was der eindeutigen Information über fehlende Daten in JavaScript Notation entspricht. Allerdings müssen, wie in JavaScript, Textinformationen (sowie “Datennamen”) immer in Anführungszeichen gesetzt werden, was die Lesbarkeit im Vergleich zu CSV etwas erschwert.

JSON ist ein weit verbreitetes Format, das in vielen Programmiersprachen unterstützt wird und sich gut für den Datenaustausch zwischen verschiedenen Systemen eignet. Allerdings eignet es sich nur bedingt für die manuelle Bearbeitung durch Menschen, da es aufgrund der kompakten Strukturierung und der Anführungszeichen schnell unübersichtlich werden kann. Daher wird es i.d.R. automatisiert erzeugt oder in Kombination mit einem Editor oder einer speziellen Software verwendet, die die Strukturierung und Lesbarkeit der Daten verbessert, was wir im Folgenden ausprobieren werden.

JSON-Beispiel

  • Öffnen sie den JSON-Onlineeditor von tutorialspoint
  • Kopieren sie den JSON-Code vom obigen Beispiel in das Editorfenster (links)
  • Studieren sie die angezeigte Baumhierarchie des Datensatzes (rechts)
    • Sie können die einzelnen Knoten aufklappen und schließen, um die Hierarchie zu erkunden

Welche Rückschlüsse können sie aus den GRAUEN Infos an den einzelnen Knoten ziehen?

  • in geschweiften Klammern werden die Anzahl der Schlüssel-Wert-Paare angezeigt, also die Anzahl der Einzelinformationen im entsprechenden (Teil)Datensatz
  • in eckigen Klammern wird die Anzahl der Elemente in einer Liste angezeigt

XML

Die Extensible Markup Language (XML) ist ein weiteres hierarchisches Datenformat, das für die Repräsentation von strukturieren, hierarchischen Daten geeignet ist. Ähnlich wie in HTML werden Informationen in sogenannten Tags gespeichert, wobei in XML die Schlagwörter frei festgelegt werden können. So könnten wir unseren JSON Datensatz wie folgt in XML ablegen.

XML

<?xml version="1.0"?>
<termine>
  <termin>
    <Nr>1</Nr>
    <Tag>Mo</Tag>
    <Ort>Zoom</Ort>
  </termin>
  <termin>
    <Nr>8</Nr>
    <Tag>Di</Tag>
    <Ort></Ort>
  </termin>
</termine>

Im Gegensatz zu JSON gibt es somit keine “unbenannten” Daten, da alle Information in Tags eingeschlossen werden muss, die durch spitze Klammern <> gekennzeichnet sind. Die führende Zeile <?xml version="1.0"?> gibt die Version des XML-Formats an, die in diesem Fall 1.0 ist, und zeigt beispielhaft, wie in XML Metadaten etc. eingebettet werden können.

Da jede Information auch wieder mit einem schließenden Tag beendet werden muss, sind XML Kodierungen meist umfangreicher als JSON, was die Lesbarkeit und die Dateigröße beeinflußt. Allerdings erlaubt XML auch die Definition von Attributen, die zusätzliche Informationen zu den Tags enthalten können. Dies kann insbesondere bei der Speicherung von Metadaten oder anderen Informationen hilfreich sein, die nicht direkt in den Tags gespeichert werden sollen.

Vordefinierte Schemata wie DTD (Document Type Definition) oder XSD (XML Schema Definition) können verwendet werden, um die Struktur der XML-Datei festzulegen, die Validierung zu erleichtern und einheitliche Standards zum Datenaustausch zu ermöglichen. Ein Beispiel hierfür ist der TEI (Text Encoding Initiative) Standard für Textrepräsentation.

Versuchs mal …

Es gibt auch einen XML-Onlineeditor von tutorialspoint. Öffnen sie diesen und kopieren sie das obige XML in die linke Editormaske.

Was unterscheidet das XML Rendering (rechts) vom JSON Rendering aus der letzten Aufgabe oben?

  • es gibt keine explizite Unterscheidung in Datensätze und Listen
  • alle Informationen werden gleich (als Text) behandelt und angezeigt (bei JSON gab es unterschiedliche Darstellungen)
  • Textinformation (zwischen einschließenden Tags) wird nicht “gequotet”, d.h. es sind keine Anführungszeichen nötig! Ausnahme sind “Attribute” der Tags, wie die Versionsinformation im Beispiel. Tauschen sie mal <termine> durch <termine info="meine Liste"> aus…

Auch für XML gilt, dass dieses i.d.R. automatisiert als Datenformat erzeugt wird und nur in seltenen Fällen komplett manuell erfaßt wird. Allerdings ist es, im Vergleich zu JSON, einfacher menschenlesbar, da alle Elemente eindeutig mit Tags benannt und begrenzt sind.

Bilder und Grafiken


Neben Text- und Tabellendaten sind auch Bilder und Grafiken wichtige Bestandteile von Forschungsdaten. Hierbei wird grundlegend in zwei Arten von Bildinformationen unterschieden, die sich in ihrer Darstellung und Verwendung wesentlich unterscheiden.

  • Rastergrafiken bestehen aus einer “Tabelle” von Pixeln, d.h. Farbinformationen pro Bildposition, und sind insbesondere für Fotos und Bilder geeignet, die eher eine diffuse Farbgebung oder Detailgestaltung haben.
  • Vektorgrafiken hingegen sind eher “Malanleitungen”, die beschreiben wo welche Bildelemente mit welcher Farbe, Form, etc. gezeichnet werden soll. Dies ist insbesondere für technische Zeichnungen, Diagramme und Schaubilder geeignet, da diese Form der Bildkodierung verlustfrei skaliert (“gezoomt”) werden kann.

Rastergrafiken

Dateiendungen:

  • .jpg oder .jpeg : JPEG (Joint Photographic Experts Group) - weit verbreitetes Format für Fotos und Bilder. ACHTUNG: verlustbehaftet, d.h. Abwägung zwischen Datenverlust und Dateigröße!
  • .png : Portable Network Graphics - verlustfreies Format für Bilder, Diagramme und Grafiken
  • .tif oder .tiff : Tagged Image File Format - verlustfreies Format für hochauflösende Bilder und Scans (vor allem für hochqualitativen Druck)
  • .gif : Graphics Interchange Format - verlustfreies Format für Animationen und einfache Grafiken

Der zentralen Unterschied zwischen diesen Formaten ist die Art der Kompression und die damit verbundene Qualität der Bilder. Während JPEG-Dateien eine verlustbehaftete Kompression verwenden, die die Dateigröße reduziert, aber auch die Bildqualität beeinträchtigen kann, sind PNG- und TIFF-Dateien verlustfrei und eignen sich daher besser für die Speicherung von Bildern, bei denen die Qualität erhalten bleiben soll.

Daher sollte die Wahl des Dateiformats von der Art des Bildes und der beabsichtigten Verwendung abhängen. Für Fotos und Bilder, die auf Webseiten oder in Präsentationen verwendet werden, ist JPEG oft ausreichend, während PNG oder TIFF für hochwertige Drucke oder Grafiken bevorzugt werden sollten.

Punktdichte und Farbtiefe in Rastergrafiken
Allen Formaten gemein ist, dass die Bildinformation gerastert wird, d.h. durch eine Tabelle von Pixeln dargestellt wird. Hierbei wird die Farbinformation für jeden Pixel gespeichert, was die Dateigröße von Bildern stark beeinflusst. Die Anzahl der Pixel wird Auflösung oder Punktdichte genannt. Die verwendete Farbtiefe (Anzahl möglicher Farben) beeinflusst ebenfalls die Dateigröße.4

Vektorgrafiken

Dateiendungen:

  • .svg : Scalable Vector Graphics - XML Format für Grafiken und Diagramme (z.B. für Webseiten)
  • .pdf : Portable Document Format - für Dokumente, kann aber auch Vektorgrafiken enthalten (z.B. für wissenschaftliche Publikationen)
  • .eps : Encapsulated PostScript - für Druckgrafiken und technische Zeichnungen (eher veraltet)
  • .ai : Adobe Illustrator (proprietär)
  • .cdr : Corel Draw (proprietär)

Im Gegensatz zu Rastergrafiken wird in Vektorgrafiken nicht das finale Bild gespeichert, sondern eine Anleitung, wie das Bild zu zeichnen ist. Daher eigenen sich Vektorgrafiken besonders für technische Zeichnungen, Diagramme und Schaubilder, die klar definierte Formen und Linien haben und i.d.R. einheitliche Farbflächen verwenden. Jedem Bildelement (z.B. Linie, Kreis, Text) wird eine mathematische Formel zugewiesen, die die Position, Form des Elements beschreibt. Zudem kann für jedes einzelne Element die Farbe, Linienstärke, Füllung, etc. definiert werden, was eine hohe Flexibilität bei der Darstellung ermöglicht.

Da Vektorgrafiken nicht aus Pixeln bestehen, sondern aus mathematischen Formeln, können sie verlustfrei skaliert werden, d.h. sie können ohne Qualitätsverlust vergrößert oder verkleinert werden. Auch ermöglichen Vektorgrafiken häufig eine bessere Komprimierung, da die mathematischen Formeln weniger Speicherplatz benötigen als die Pixelinformationen von Rastergrafiken, sodass die Dateigröße von (einfachen) Vektorgrafiken i.d.R. kleiner ist. Auch ist es möglich, nur Ausschnitte von Vektorgrafiken zu verwenden, ohne dass die Qualität leidet.

Da Vektorgrafiken in der Regel in speziellen Programmen erstellt werden, sind die Dateiformate häufig proprietär und können nicht ohne weiteres von anderen Programmen geöffnet oder bearbeitet werden. Eine Ausnahme bildet das SVG-Format, das auf XML basiert und daher auch von anderen Programmen gelesen und bearbeitet werden kann. Das SVG-Format wurde speziell für das Web entwickelt und ist daher besonders für Webseiten geeignet. Hierbei können Vektorgrafiken direkt in den HTML-Code eingebunden werden und sind daher besonders für interaktive Grafiken und Diagramme geeignet, die mit Hilfe von JavaScript dynamisch verändert werden können (inhaltlich wie auch optisch). Aufgrund seiner Verbreitung und Flexibilität ist das SVG-Format sehr gut für den Datenaustausch und die Archivierung von Grafiken geeignet.

Für die Publikation von wissenschaftlichen Ergebnissen ist das PDF-Format besonders geeignet, da es sowohl Text als auch Vektorgrafiken und Rasterbilder enthalten kann, auf nahezu jedem Gerät geöffnet werden kann und für die einheitliche Darstellung auf allen Geräten entwickelt wurde. Zudem können PDF-Dateien mit Metadaten versehen werden, die Informationen über den Autor, das Erstellungsdatum, die Lizenz, etc. enthalten. Dies ist besonders wichtig für die Nachvollziehbarkeit und Zitierbarkeit von wissenschaftlichen Ergebnissen.

Schwierigkeiten mit digitalen Bildern

Rastergrafiken haben den Nachteil, dass sie bei der Vergrößerung an Qualität verlieren, da die Pixelinformationen interpoliert werden müssen, d.h. die Software muss die fehlenden Pixel “erraten” oder Zwischenwerte berechnen. Dies führt zu Unschärfe und Verzerrungen, insbesondere bei starken Vergrößerungen. Auch die Farbtiefe und Auflösung der Bilder beeinflussen die Qualität und Dateigröße, sodass eine Abwägung zwischen Qualität und Speicherplatzbedarf getroffen werden muss.

Beispiele fuer Kantenglaettung
Beispiele für Pastergrafikdarstellung mit und ohne Kantenglättung (Anti-Aliasing) 5.

Vektorgrafiken sind hingegen nicht für alle Arten von Bildern geeignet, insbesondere für Fotos und Bilder mit komplexen Farbverläufen und Texturen. Hier sind Rastergrafiken besser geeignet, da sie die feinen Details und Farbnuancen besser darstellen können. Zudem werden Vektorgrafiken bei der Konvertierung in Rastergrafiken (z.B. für den Druck) in der Regel gerastert, d.h. in Pixel umgewandelt, was zu Qualitätsverlusten führen kann. Bei sehr komplexen Vektorgrafiken mit sehr vielen (überlappenden) Elementen kann die Dateigröße auch größer sein als bei vergleichbaren Rastergrafiken, da die mathematischen Formeln und die Vielzahl der Einzelelemente mehr Speicherplatz benötigen.

Zusammenfassung


Key Points

  • Standardisierte Dateiformate erleichtern den Datenaustausch und die Archivierung von Daten.
    • für Rohdaten und Publikation
    • für Austausch mit Kollegen und der Öffentlichkeit
    • i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
  • Proprietäre Dateiformate für internen Gebrauch und spezielle Anwendungen/Software
    • ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
    • können (für Austausch) in offene Formate konvertiert werden
  • Wahl des Dateiformats u.a. abhängig von
    • Art der Daten (z.B. Text, Bild, Video, Audio, ..)
    • Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
    • Kompatibilität mit Software und Plattformen
  • Dateiendungen
    • sind nur ein Teil des Namens ohne weitere Auswirkungen
    • ermöglichen dem Betriebssystem das richtige Programm zum Öffnen auszuwählen
      • Programmassoziation kann geändert werden!

Einordnung im Datenlebenszyklus

Datenlebenszyklus}

Die richtige Wahl des Dateiformats ist in allen Phasen des Datenlebenszyklus wichtig:

  • Planung: Auswahl geeigneter Formate für die Datenerhebung, -analyse und -publikation
  • Erhebung: Speicherung und Dokumentation der Daten
  • Analyse: Verwendung von geeigneten Formaten für die Analyse (Skripte) und von Zwischenergebnissen (ggf. proprietäre Formate)
  • Publikation: Bereitstellung der Daten in geeigneten Formaten
  • Archivierung: Langzeitarchivierung in geeigneten Standardformaten
  • Nachnutzung: Dokumentation; Auswahl von Formaten, die die eigene Nachnutzung erleichtern

  1. Proprietär bedeutet, dass das Dateiformat von einem bestimmten Hersteller oder für dessen Programm entwickelt wurde und daher nur von diesem Programm oder von Programmen, die das Format kennen und unterstützen, gelesen oder verarbeitet werden können.↩︎

  2. Quelle - B.K. Nielsen - Freron - 07.08.2024↩︎

  3. Quelle - Chris Spann - Lumar - 07.08.2024↩︎

  4. Quelle - F. Graf - wikipedia.de - 09.08.2024↩︎

  5. Quelle - selfhtml.org - 12.09.2024↩︎

Content from Reguläre Ausdrücke


Last updated on 2024-11-04 | Edit this page

Estimated time: 50 minutes

Overview

Questions

  • Was?
  • Aufbau?
  • Wo?

Objectives

  • Verständnis was Reguläre Ausdrücke sind
  • Wissen um die Elemente von Regulären Ausdrücken
  • Anwendung von Regulären Ausdrücken

Reguläre Ausdrücke sind einer der Grundpfeiler für die komplexe Textdatenprozessierung. Mit diesen kann man mit wenig Aufwand

  • nach Vorkommen von Textmustern suchen, um diese zu
    • extrahieren,
    • zählen, oder
    • ersetzen (mit neuen Texten oder Teilen des alten Textes).

Dabei ist unter “Textmuster” nicht ein exaktes Wort oder dergleichen zu verstehen, sondern eine Suchkodierung, welche Variabilität zulässt.

Als Einsteig ein kleines Beispiel: Wir haben die folgenden Worte

soll gefunden werden soll nicht gefunden werden
Frida Fritz
Erna Hugo
Lisa Lino

Die einfachste (und am wenigsten flexible) Lösung wäre es, die gesuchten Worte alle als Alternativen hintereinander in einem regulärem Ausdruck aufzulisten:

  • Frida|Erna|Lisa” = wobei “|” für ein “ODER” steht

Wenn man reguläre Ausdrücke baut, muss man genau schauen, was die gesuchten Wörter (oder Textpassagen) gemeinsam haben. In unserem Fall enden alle gesuchten Namen mit “a”, was wir verwenden können. Was davor für Buchstaben kommen (und wieviele), ist erst einmal unerheblich, um die Worte von den nicht gesuchten zu unterscheiden. Daher könnten wir folgendes verwenden:

  • .*a” = wobei “.” für ein beliebiges Zeichen (Buchstabe, Ziffer, Leer-, Satzzeichen, …) steht und “*” für eine beliebige Anzahl (auch 0) des vorherigen Teils (also hier “.”)

Das funktioniert, liefert aber ggf. zu viel Variabilität, was ein häufiger Fallstrick bei regulären Ausdrücken ist. Sprich sie sind zu unkonkret. In unserem Fall passt der Ausdruck auch auf: “..a”, “lala”, “Hans-Anna”, … Sie sehen das Problem? Um dieses zu umgehen, könnte man folgende Sachen machen:

  • .+a” = wir fordern mit “+”, dass vor dem “a” mindestens ein (beliebiger) Buchstabe ist
  • [a-zA-Z]+a” = wir geben in “[]” ganz genau an, welche Buchstaben wir erlauben (hier z.B. keine Umlaute)
    • mit Bindestrich “-” können wir auch Reihen angeben, z.B. “[a-d]” = a, b, c oder d
  • \w+a” = dazu könnten wir auch eine vordefinierte character class (hier \w für Wortbuchstabe) nehmen
  • [A-Z][a-z]*a” = mit “[A-Z]” sichern wir, dass der erste Buchstabe grossgeschrieben ist und anschliessend können (da “*”) nur Kleinbuchstaben in der Wortmitte sein
  • … und so weiter

Das Beispiel zeigt, dass reguläre Ausdrücke ganz allgemein (“.*a”) oder sehr präzise (“Frida|Erna|Lisa”) sein können. Die Kunst ist es nun, den für die anstehende Aufgabe passenden regulären Ausdruck zu erdenken. Dazu hilft einem das beiliegende Cheatsheet, welches man sicher auch in Zukunft immer wieder heraus holen muss.

Suche von Textmustern

Reguläre Ausdrücke werden von links nach rechts abgearbeitet und buchstabenweise abgeglichen (gematcht).

Zudem muss man wissen, dass i.d.R. das längste passende Textstück als Treffer gesucht wird. Man spricht hierbei von greedy matching.

Aufgabe

Öffnen sie den Online RegEx-Tester https://regex101.com/.

Kopieren sie die Namen aus obiger Tabelle in das Textfeld und prüfen sie, ob die bisher vorgestellten regulären Ausdrücke wirklich funktionieren.

Wichtig: Kopieren sie die regulären Ausdrücke ohne Anführungszeichen in das Suchfeld.

Ordnen sie die regulären Ausdrücke nach ihrer Spezifität (von allgemein nach spezifisch).

Ausdrücke in steigender Spezifität:

  • .*a” (sehr allgemein, matched auch nur ein einzelnes “a”)
  • \w+a” (\w matched auch Zahlen und Unterstriche)
  • [a-zA-Z]+a” (nur Buchstaben, keine Umlaute oder ß)
  • [A-Z][a-z]*a” (erst Grossbuchstabe, dann Kleinbuchstaben)
  • Frida|Erna|Lisa” (nur die drei Namen)

Aufbau


Reguläre Ausdrücke bestehen aus einer Aneinanderreihung von Elementen, die in einer bestimmten Reihenfolge stehen müssen. Das heißt, in den meisten Fällen beschreibt man ein Wort oder eine Wortgruppe, wobei einzelne Positionen unterschiedliche Buchstaben aufweisen können. An diesen Stellen kommen die sogenannten character classes ins Spiel, die Platzhalter für Buchstaben, Zahlen, Leerzeichen, … sind.

Damit nicht nur Wörter gleicher Länge mit einem Suchmuster gefunden werden, gibt es Quantifikatoren, die angeben, wie oft das vorherige Zeichen vorkommen soll (oder kann).

Zuletzt gibt es noch Anker, die eingrenzen, WO ein Suchmuster im Text vorkommen soll (z.B. am Anfang oder Ende eines Wortes oder der Zeile etc.).

Final können mit Gruppierungen auch Teile des gefundenen Textes extrahiert werden, um sie weiter zu verarbeiten oder um z.B. Wiederholungen im Textmuster zu beschreiben.

In normalen regulären Ausdrücken sind alle Buchstaben, die Teil des Suchmusters sind, auch Teil des Treffers/Matches. Mit Lookarounds können aber auch “Randbedingungen” definiert werden, die nicht Teil des Matches sind, aber dennoch erfüllt sein müssen. Zum Beispiel das vor einem Wort ein Leerzeichen oder Satzzeichen sein muss, aber dieses nicht Teil des Matches ist.

RegEx Magic

Die Kunst besteht nun darin, die richtigen Elemente in der richtigen Reihenfolge zu kombinieren, um das gewünschte Suchmuster zu beschreiben.

Hierbei sollte das Muster so allgemein wir nötig und so spezifisch wie möglich sein, um nur die gewünschten Treffer zu erhalten. Dies ist vor allem wichtig, wenn das Muster nur an einem kleinen Beispieldatensatz entwickelt, später aber auch auf andere Datensätze angewandt werden soll.

Elemente


Grundlegend unterscheidet man bei regulären Ausdrücken folgende Elemente:

  • character classes, d.h. Platzhalter die auf mehrere Buchstaben matchen, z.B.
    • . = jedwedes Zeichen
    • [xyz] = explizite Zeichenliste, hier “x”, “y” und “z”
      • auch Reihen möglich, z.B. [3-7] = 3,4,5,6,7
    • \s = whitespaces = alle unsichtbaren Zeichen, z.B. Leerzeichen, Tabulator, …
    • \d = digits = Zahlen = [0-9]
    • \w = (english) word = [A-Za-z0-9_] (keine Umlaute etc.!)
    • Negation:
      • Grossschreibung \S, \D, .. = alles “ausser” den Zeichen der entsprechenden “kleinen Klasse” \s, \d, …
      • [^xyz] = das ^ negiert die explizite Liste (alles ausser x,y,z)
  • Quantifikatoren, d.h. wie häufig soll das vorangehende Zeichen gematcht werden, z.B.
    • ? = ein oder kein mal
    • + = mindestens einmal
    • * = kann mehrfach vorkommen oder gar nicht
    • {..} = explizite Anzahl
  • Anker, d.h. wo soll der match verortet sein, z.B.
    • ^ = Zeilenanfang
    • $ = Zeilenende
    • \b = Wortgrenze, z.B. er\b matcht nur “er” am Wortende
  • Gruppen, d.h. Zusammenfassung von match-Teilen, z.B.
    • (..) = Klammern werden nicht gematcht, sondern sind Markierungen
    • z.B. für lokale Alternativdefinition ala (Hi|Ku)nz = Hinz oder Kunz
    • \1 Rückreferenzierung auf 1., 2., … vorangehende Gruppe
      • z.B. (.).\1 matcht aha, oho, ana, d.h. erster und letzter Buchstabe gleich

Neben den oben genannten RegEx-spezifischen \..-Elementen gibt es auch immer noch einige Sonderzeichen für die auch Escapes notwendig sind, z.B.

  • \t für Tabulator
  • \n für Zeilenumbruch

Ausserdem müssen Zeichen, die in RegEx eine spezielle Bedeutung haben, auch escaped werden z.B.

  • \[ für das normale [-Zeichen
  • \\ für das normale \-Zeichen
  • \. für das normale .-Zeichen
  • \+ für das normale +-Zeichen

Tutorials


Wem das jetzt zu schnell oder kompakt war, oder wer noch etwas bei regulären Ausdrücken ins Schwimmern gerät, dem seien folgende Tutorials ans Herz gelegt:

RegEx Kreuzworträtsel

Zudem gibt es auch spielerische Ansätze, um das Lesen und Verstehen von regulären Ausdrücken zu üben.

Besuchen sie dazu die Seite:

Bis zu welchem Level kommen sie? 😎

CheatSheet


RegEx Cheatsheet}

Zusammenfassung


Key Points

  • Reguläre Ausdrucke kodieren Textsuchmuster mit Variabilität in
    • den vorkommenden Zeichen (positionsspezifisch)
    • der Häufigkeit der Zeichen (oder Teilmuster)
    • der Position des Musters im Text
    • den flankierenden Texten
  • Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
  • Cheatsheet der Elemente

Einordnung im Datenlebenszyklus

Datenlebenszyklus
In welchen Phasen im Datenlebenszyklus sehen sie obige Punkte als besonders wichtig an?

Reguläre Ausdrücke können immer dann von Nutzen sein, wenn Daten nach bestimmten Mustern oder Informationen durchsucht oder verändert werden sollen. Konkret wären folgende Phasen im Datenlebenszyklus denkbar:

  • Planung: Suche nach geeigneten Daten und Dokumentationen
  • Erhebung: Überblick und Validierung der Daten
  • Analyse: Verarbeitung von Textdaten

Content from Browser


Last updated on 2025-01-03 | Edit this page

Estimated time: 40 minutes

Overview

Questions

  • Browser?
  • Cookies?
  • JavaScript?
  • Suchmaschinen?

Objectives

  • Aufgaben und Funktionsweise von Browsern
  • Einsatz und Ziele von Cookies
  • Möglichkeiten und Grenzen von JavaScript
  • Gedanken zu Suchmaschinen und GPTs/LLMs

Browser sind Programme, die es ermöglichen, Webseiten oder Dokumente anzuzeigen und mit diesen zu interagieren. Sie sind die Schnittstelle zwischen dem Nutzer und dem World Wide Web. Beispiele sind Google Chrome, Mozilla Firefox, Microsoft Edge und Safari (Apple).

Historie


Die ersten Browser waren textbasiert und konnten nur einfache HTML-Dokumente (Webseiten) darstellen. Derartige Browser sind heute noch im Einsatz, z.B. lynx oder w3m, und werden oft in der Kommandozeile verwendet. Diese Browser sind sehr schnell und ressourcenschonend, da sie keine Grafiken oder JavaScript ausführen können, und können daher auch bei sehr langsamen Internetverbindungen eingesetzt werden. Im Folgenden ist das Darstellen der Google-Startseite in w3m dargestellt:

w3m-google
Google Startseite im w3m Textbrowser

Seit den 1990er Jahren sind Browser in der Lage, auch Grafiken und andere Medien anzuzeigen. Die ersten Browser, die dies ermöglichten, waren Netscape Navigator und Microsoft Internet Explorer. Die “Browserkriege” der 1990er Jahre führten zu einer Vielzahl von proprietären Technologien, die die Entwicklung von Webseiten erschwerten. Gegen Ende der 1990er Jahre hatte Microsoft eine marktbeherrschende Stellung erreicht, die erst in den 2000er Jahren durch den Aufstieg von Mozilla Firefox und später Google Chrome gebrochen wurde. Die Entwicklung ist in der folgenden Grarik dargestellt.

Browser-Marktanteile
Marktanteile von Browsern. Quellen csmonitor.com und statcounter.com (Dez. 2024)

Mit der Einführung von Google Chrome im Jahr 2008 begann eine neue Ära der Browserentwicklung. Chrome war der erste Browser, der auf der JavaScript-Engine V8 basierte, die deutlich schneller war als die Konkurrenz. Chrome führte auch eine Sandbox-Technologie ein, die es ermöglichte, Webseiten in isolierten Prozessen auszuführen, um die Sicherheit zu erhöhen. Seitdem haben sich die Browser stark weiterentwickelt und sind heute in der Lage, komplexe Webanwendungen auszuführen, die früher nur als Desktop-Anwendungen (eigenständige Programme) möglich waren. Mittlerweile basieren fast alle Browser auf der Open-Source-Engine Chromium (dem Herzstück von Chrome), die von Google entwickelt wurde, und sind daher sehr ähnlich in ihrer Funktionsweise.

Aufgabe

Microsoft Internet Explorer war lange Zeit der dominierende Browser, da er mit Windows gebündelt war.

Welche Gründe könnten für den Aufstieg von Google Chrome verantwortlich sein?

  • Chrome war (wirklich) besser:
    • schneller und ressourcenschonender
    • Unterstützung für moderne Webstandards
  • ABER: Chrome ist mittlerweile der Standardbrowser auf Android-Geräten, was auch zu einer hohen Verbreitung beiträgt

Aufgaben und Funktionsweise von Browsern


Browser haben verschiedene Aufgaben, darunter:

  • Anzeigen von Webseiten
  • Ausführen von JavaScript
  • Verwalten von Cookies
  • Anzeigen von Medien (Bilder, Videos, Audio)
  • Ausführen von Webanwendungen (z.B. Google Docs, Facebook)
  • Unterstützung von Webstandards (HTML, CSS, JavaScript)
  • Sicherheit (Sandboxing, HTTPS, Passwörter, Content Security Policy)
  • Barrierefreiheit (Screenreader, Tastaturnavigation)
  • Datenschutz (Verschlüsselung, Do Not Track)
  • Erweiterbarkeit (Plugins, Addons)

Browser sind also weit mehr als nur ein “Fenster” ins Internet, sondern eine komplexe Software, die viele verschiedene Technologien und Standards unterstützt und bündelt. Im Folgenden werden einige dieser Aufgaben näher beleuchtet.

Browser vs. Suchmaschine

Wichtig: Browser sind keine Suchmaschinen!

  • Suchmaschinen = Webseiten, die es ermöglichen, Inhalte im Internet zu finden.
  • Browser = Programme/Werkzeuge, die Webseiten anzeigen und mit ihnen interagieren.

Das heisst, man benötigt einen Browser, um eine Suchmaschine zu benutzen, aber nicht umgekehrt.

Webseiten anzeigen


Bevor wir uns damit beschäftigen, was alles geschehen muss, damit eine Webseite angezeigt wird, schauen wir uns an, wie eine Webseite aufgebaut ist.

Im Folgenden werden die wichtigsten Bestandteile einer Webseite zergliedert dargestellt.

Bestandteile einer Webseite
Bestandteile einer Webseite. Um eine Webseite anzuzeigen (oben mittig), müssen verschiedene Ressourcen geladen werden: HTML, CSS, JavaScript, Bilder, Schriftarten, etc., die i.d.R. in verschiedenen Dateien vorliegen.

Zentral für eine Webseite ist die HTML-Datei, die den strukturellen Aufbau der Seite definiert. In dieser Datei werden die verschiedenen Elemente der Seite (Überschriften, Absätze, Links, Bilder, etc.) definiert und miteinander verknüpft bzw. deren Anordnung festgelegt.

Hierbei werden in der HTML-Datei auch Verweise auf andere Ressourcen gemacht, die für die Darstellung der Seite notwendig sind. So werden z.B. Bilddateien referenziert und deren Position auf der Seite festgelegt. Auch Schriftarten und CSS-Dateien (Cascading Style Sheets) werden in der HTML-Datei referenziert, um das Aussehen der Seite zu definieren.

Interaktivität und dynamische Inhalte werden durch JavaScript ermöglicht, das ebenfalls in der HTML-Datei eingebettet oder referenziert wird. JavaScript ermöglicht es, auf Benutzereingaben zu reagieren, Daten zu verarbeiten und zu speichern, und die Seite dynamisch zu verändern.

Alle diese Ressourcen müssen vom Browser zuerst geladen und verarbeitet werden, um die Seite anzuzeigen zu können. Das Laden und Verarbeiten dieser Ressourcen wird als Fetching bezeichnet und kann je nach Grösse und Anzahl der Ressourcen einige Zeit in Anspruch nehmen, was sich auf die Ladezeit der Seite auswirkt und stark von der Internetverbindung abhängt. Das anschliessende Rendering der Seite, also das Anzeigen der Seite im Browserfenster, kann ebenfalls einige Zeit in Anspruch nehmen, insbesondere wenn die Seite viele Elemente und komplexe Layouts enthält. Hierbei müssen die verschiedenen Elemente der Seite anhand des HTML-Codes und der CSS-Definitionen positioniert und formatiert werden, Bilder und Schriftarten geladen und dargestellt werden, und ggf. JavaScript-Code ausgeführt werden, um finale Anpassungen vorzunehmen. Dieser Prozess wird als Rendering Pipeline bezeichnet und ist ein komplexer Vorgang, der viele Schritte umfasst und von der Leistungsfähigkeit des Browsers und des Endgeräts abhängt.

JavaScript


Heutzutage sind Webseiten oft interaktiv und dynamisch, d.h. sie reagieren auf Benutzereingaben, laden Daten nach, und passen sich an die Umgebung (z.B. den Browser oder das Endgerät) an. Hierfür wird JavaScript verwendet, eine Programmiersprache, die im Browser ausgeführt wird.

Ein zentraler Fokus der Verwendung von JavaScript in Browsern ist die Sicherheit, da JavaScript potenziell gefährliche Aktionen ausführen kann, wie z.B. das Lesen von Dateien auf dem Computer des Benutzers oder das Senden von Daten an einen Server. Aus diesem Grund sind Browser so konzipiert, dass sie JavaScript in einer Sandbox ausführen, d.h. in einer isolierten Umgebung, die den Zugriff auf bestimmte Funktionen und Ressourcen des Endgeräts einschränkt. So kann JavaScript z.B. nicht auf das Dateisystem des Benutzers zugreifen oder auf andere Browser-Tabs oder -Fenster zugreifen. Dies dient dazu, die Sicherheit des Benutzers und seiner Daten zu gewährleisten und die Integrität des Browsers zu schützen.

Was geht (nicht) mit JavaScript im Browser?

Möglich Verhindert
Änderung der angezeigten Seite (HTML, CSS, Inhalte, …) Kein Zugriff auf andere Browser-Tabs oder -Fenster
Interaktion mit dem Benutzer (Klicks, Tastatureingaben, …) Kein (unauthorisierter) Zugriff auf Hardware (Kamera, Microfon, …)
Laden von Daten vom Webseitenserver (AJAX, Fetch, …) Keine direkte Kommunikation mit anderen Webseiten
Speichern von Daten im Browser (Cookies, LocalStorage, …) Kein Zugriff auf das Dateisystem des Benutzers
Komplexe Visualisierungen und Animationen Keine Ausführen von Programmen auf dem Endgerät

Aufgabe

Die Folgende Grafik von javacript.info fasst die verschiedenen Möglichkeiten und Einschränkungen von JavaScript im Browser zusammen.

Möglichkeiten und Einschränkungen von JavaScript im Browser
Möglichkeiten und Einschränkungen von JavaScript im Browser

Gleichen sie die Punkte aus der obigen Tabelle mit den Elementen der Grafik ab.

  • Möglichkeiten:
    • Serverkommunikation (grüner Smiley)
    • (stark beschränkter) Endgerätezugriff (roter Smiley nach unten)
  • Verhindert:
    • Zugriff auf Hardware (roter Smiley nach unten)
    • Zugriff auf andere Webseiten/Server (roter Smiley nach oben rechts)
    • Zugriff auf andere Browser-Tabs/Fenster (roter Smiley nach rechts)
    • Zugriff auf Dateisystem (roter Smiley nach unten)
    • Ausführen von Programmen (roter Smiley nach unten)

Weiterführende Informationen

Weiterführende Informationen zu JavaScript und seinen Möglichkeiten und Einschränkungen finden Sie auf der Webseite javascript.info.

Cookies


Cookies sind kleine Textdateien, die vom Browser auf dem Endgerät des Benutzers gespeichert werden und Informationen über die Interaktion des Benutzers mit der Webseite enthalten. Cookies werden verwendet, um den Benutzer zu identifizieren, seine Einstellungen und Präferenzen zu speichern, und das Verhalten des Benutzers auf der Webseite zu verfolgen. Sie sind daher ein wichtiges Instrument für die Personalisierung von Webseiten und die Verbesserung der Benutzererfahrung. Mögliche Anwendungen von Cookies sind z.B.:

  • Authentifizierung: Cookies werden verwendet, um den Benutzer zu identifizieren und seine Anmeldung auf der Webseite zu speichern.
  • Sitzungsverwaltung: Cookies werden verwendet, um Informationen über die aktuelle Sitzung des Benutzers zu speichern, z.B. den Warenkorb in einem Online-Shop.
  • Präferenzen: Cookies werden verwendet, um die Einstellungen und Präferenzen des Benutzers zu speichern, z.B. die Sprache oder das Design der Webseite.

Diese sogenannten Erstanbieter-Cookies (First-Party-Cookies) werden beim Wiederbesuch der Webseite vom Browser an den Server gesendet, um dem Server Informationen über den Benutzer und seine bisherige Interaktion mit der Webseite zur Verfügung zu stellen. Hierbei werden dem Server nur die Informationen übermittelt, die im Webseiten-zugehörigen Cookie gespeichert sind. Ein Zugriff auf Cookies anderer Webseiten ist nicht möglich.

ABER…

Cookies können auch von Drittanbietern (z.B. Werbenetzwerken) verwendet werden, um das Verhalten des Benutzers über verschiedene Webseiten hinweg zu verfolgen und personalisierte Werbung anzuzeigen.

  • Tracking: Cookies werden verwendet, um das Verhalten des Benutzers auf der Webseite zu verfolgen und personalisierte Inhalte oder Werbung anzuzeigen.

Hierfür werden Drittanbieter-Cookies (Third-Party-Cookies) verwendet, die beim Laden von Teilen der Webseite (z.B. Werbung) von einem anderen Server als dem Webseiten-Server gesetzt werden. Hierdurch können Drittanbieter Informationen über das Verhalten des Benutzers auf verschiedenen Webseiten sammeln und personalisierte Werbung webseitenübergreifend anzeigen. Die Idee ist in folgender Grafik dargestellt.

Tracking mit Drittanbieter-Cookies
Tracking mit Drittanbieter-Cookies

Datenschutz und Sicherheit

Daher sind Cookies auch ein umstrittenes Thema im Hinblick auf Datenschutz und Sicherheit. Einerseits ermöglichen sie die Personalisierung von Webseiten und die Verbesserung der Benutzererfahrung, andererseits können sie auch zur Überwachung und Profilbildung der Benutzer verwendet werden, was Datenschutzbedenken aufwirft. Deshalb gibt es in der EU die Cookie-Richtlinie, die die Verwendung von Cookies regelt und den Benutzern die Kontrolle über die Verwendung von Cookies gibt. Aufgrund dieser Richtlinie müssen Webseiten den Benutzern die Möglichkeit geben, der Verwendung von Cookies zuzustimmen oder sie abzulehnen.

Löschen von Cookies

Benutzer können Cookies in ihrem Browser löschen, um ihre Spuren im Internet zu entfernen und ihre Privatsphäre zu schützen. Die meisten Browser bieten die Möglichkeit, Cookies selektiv oder alle auf einmal zu löschen. Dies kann in den Einstellungen des Browsers oder über spezielle Erweiterungen oder Add-Ons erfolgen.

Aufgabe

Im Folgenden sollen sie sich ein Bild machen, wieviele Cookies und welche Informationen darin gespeichert sind.

  • Öffnen sie die Google Startseite in ihrem Browser https://www.google.de/
  • Öffnen sie die Cookie-Informationen ihres Browsers
    • Google Chrome: Tastenkombination F12 und dann Speicher >> Cookies
    • Mozilla Firefox: Tastenkombination UMSCHALT+F9
    • Microsoft Edge: Tastenkombination F12 und dann Speicher >> Cookies
  • Öffnen sie die Cookie-Details von www.google.de an

Bis wann sind die Cookies gültig?

Die Gültigkeit der Cookies ist unterschiedlich und hängt von den Einstellungen des Servers und des Browsers ab. Zum Zeitpunkt der Erstellung dieses Dokuments (Dez 2024) haben die Cookies auf der Google-Startseite eine Gültigkeit von einem halben Jahr.

Dies zeigt, dass Cookies eine lange Lebensdauer haben können, da mit ihrer Hilfe i.d.R. über einen längeren Zeitraum Informationen über den Webseitennutzer gespeichert werden.

Best Practices für Browsernutzung


  • Aktualisieren Sie Ihren Browser regelmäßig: Halten Sie Ihren Browser auf dem neuesten Stand, um die neuesten Sicherheitsupdates und Funktionen zu erhalten.
  • Verwenden Sie sichere Passwörter: Verwenden Sie sichere Passwörter, um Ihr Konto und Ihre Daten zu schützen.
  • Verwenden Sie HTTPS: Verwenden Sie HTTPS, um die Sicherheit Ihrer Verbindung zu gewährleisten und die Übertragung sensibler Daten zu schützen.
  • Verwenden Sie sichere Verbindungen: Vermeiden Sie unsichere WLAN-Verbindungen und verwenden Sie VPNs, um Ihre Verbindung zu schützen.
  • Verwenden Sie sichere Erweiterungen: Verwenden Sie nur vertrauenswürdige Erweiterungen und Add-Ons, um die Sicherheit Ihres Browsers zu gewährleisten.
  • Verwenden Sie sichere Einstellungen: Überprüfen Sie die Sicherheitseinstellungen Ihres Browsers und passen Sie sie an Ihre Bedürfnisse an.
  • Verwenden Sie sichere Cookies: Verwenden Sie nur sichere Cookies und löschen Sie regelmäßig alte Cookies, um Ihre Privatsphäre zu schützen.
  • Schließen Sie nicht benötigte Tabs: Schließen Sie nicht benötigte Tabs und Fenster, um die Leistung Ihres Browsers zu verbessern und Speicherplatz freizugeben.
  • Löschung von Verlaufsdaten: Löschen Sie regelmäßig Ihren Browserverlauf, um Ihre Privatsphäre zu schützen und Speicherplatz freizugeben.
  • Ausloggen aus Konten: Melden Sie sich immer aus Ihren Konten ab, wenn Sie den Browser verlassen, um Ihre Daten zu schützen und personalisiertes Profiling zu reduzieren.

WICHTIG

AUCH AUF DEM HANDY !!!

Suchmaschinen


Aufgrund der Vielzahl von Webseiten und der Menge an Informationen, die im Internet verfügbar sind, sind Suchmaschinen ein unverzichtbares Werkzeug für die Navigation im Internet. Hierbei werden dem Benutzer anhand von gegebenen Schlagworten oder Suchbegriffen relevante Webseiten vorgeschlagen und z.T. Informationen aus diesen direkt angezeigt. Um dies zu ermöglichen, müssen Suchmaschinen das Internet durchsuchen und indexieren, d.h. die Inhalte von Webseiten analysieren und in einer Datenbank speichern.

Der Prozess der Suche und Indexierung wird von speziellen Programmen, sogenannten Crawlern oder Spidern, durchgeführt, die das Internet nach neuen Inhalten durchsuchen und diese in die Datenbank der Suchmaschine aufnehmen. Hierbei werden bereits bekannte Webseiten regelmäßig auf Änderungen überprüft und neue Webseiten (z.B. aufgrund von Links von bekannten Webseiten) hinzugefügt, um sicherzustellen, dass die Datenbank aktuell und vollständig ist. Dies geschieht in der Regel automatisch und kontinuierlich, um sicherzustellen, dass die Suchergebnisse immer auf dem neuesten Stand sind.

Für eine gegebene Suchanfrage werden dann die relevantesten Ergebnisse aus dieser Datenbank zurückgegeben. Hierfür werden sogenannte Ranking-Algorithmen verwendet, die die Relevanz der Ergebnisse anhand verschiedener Kriterien bewerten und sortieren. Dies geschieht in der Regel in Bruchteilen von Sekunden und ermöglicht es den Benutzern, schnell und effizient Informationen zu finden.

Grundlegender Prozess der Suchmaschinenfunktionalität
Grundlegender Prozess der Suchmaschinenfunktionalität (Quelle: XOVI)

Weiterführende Informationen

Weitere Details zu Suchmaschinen und im speziellen wissenswertes zur Google Suchmaschine findet sich auf der Seite Wie funktioniert eine Suchmaschine von XOVI.

Meta-Suchmaschinen

Meta-Suchmaschinen sind Suchmaschinen, die die Ergebnisse mehrerer Suchmaschinen kombinieren und dem Benutzer eine umfassendere und vielfältigere Auswahl an Ergebnissen bieten. Dies kann dazu beitragen, dass der Benutzer eine breitere Palette von Informationen erhält und nicht nur auf die Ergebnisse einer einzelnen Suchmaschine beschränkt ist.

Marktanteile von Suchmaschinen


Historisch gesehen gab es vor 2000 eine Vielzahl von Suchmaschinen, die um Marktanteile konkurrierten.

Zeitverlauf von Suchmaschinen-Marktanteilen
Zeitverlauf von Suchmaschinen-Marktanteilen. (Quelle: B. Stoffel - Motley)

Mit dem Aufstieg von Google in den 2000er Jahren hat sich der Markt jedoch stark konsolidiert, und Google hat heute einen Marktanteil von über 90% in vielen Ländern. Dies hat dazu geführt, dass Google zu einer der dominantesten und einflussreichsten Suchmaschinen der Welt geworden ist und einen erheblichen Einfluss auf die Art und Weise hat, wie Menschen Informationen im Internet finden und welche sie konsumieren.

Marktanteile von Suchmaschinen
Marktanteile von Suchmaschinen nach Land. (Quelle: Alphametic)

Mögliche Probleme

Grundlegend müssen Suchmaschinen mit Bedacht und Vorsicht genutzt werden, um die Qualität und Relevanz der Ergebnisse zu gewährleisten und die eigenen Daten und Privatsphäre zu schützen. Hinter (fast) jeder Suchmaschine steht ein Unternehmen und somit ein Geschäftsmodell, das darauf abzielt, die Suche bzw. Suchergebnisse zu monetarisieren und die Benutzerdaten zu nutzen, um personalisierte Werbung zu schalten oder andere Dienste anzubieten.

Getreu dem Motto “No free lunch”, sollte man immer darüber nachdenken, wie sich scheinbar kostenlose Services (wie Suchmaschinen) eigentlich finanzieren. Denn die kontinuierliche Verbesserung und Bereitstellung einer Suchmaschine ist mit erheblichen Kosten verbunden (STROM, Hardware, Personal, …), die irgendwie gedeckt werden müssen. Somit zahlt man bei Benutzung ggf. nicht direkt mit Geld, sondern mit seinen Daten und seiner Aufmerksamkeit bzw. wird gezielt zu Produkten/Dienstleistungen von Dritten geleitet, die mit dem Suchmaschinenbetreiber kooperieren.

Daher sind die Hauptrisiken und Probleme bei der Nutzung von Suchmaschinen:

  • Filterblase: Suchergebnisse werden z.T. eingeschränkt und “personalisiert”, dass Benutzer nur Informationen sehen, die ihren Interessen und Ansichten entsprechen, was zu einer “Filterblase” und einseitiger Informationsgewinnung führen kann.
  • Datenschutz: Suchmaschinen können Informationen über das Suchverhalten der Benutzer sammeln und speichern, was Datenschutzbedenken aufwirft.
  • Zensur: Suchmaschinen können Ergebnisse filtern oder zensieren, was zu einer eingeschränkten Informationsfreiheit führen kann.
  • Manipulation: Suchmaschinen können Ergebnisse manipulieren oder beeinflussen, um bestimmte Interessen zu fördern oder zu unterdrücken.

Geht’s auch ohne Google?

Mit dieser Frage beschäftigen sich die Autoren der Plattform “Digital Courage” in ihrem Artikel

GPTs und LLMs als Suchmaschinen

In den letzten Jahren haben sich auch neue Ansätze für die Suche und das Auffinden von Informationen im Internet entwickelt, die auf künstlicher Intelligenz und maschinellem Lernen basieren. Ein Beispiel hierfür sind Generative Pre-trained Transformer (GPT)-Modelle und Large Language Models (LLM), die darauf abzielen, natürliche Sprache zu verstehen und zu generieren und komplexe Suchanfragen zu verarbeiten. Beispiele hierfür sind OpenAI’s ChatGPT oder Google’s BERT.

Um dies zu ermöglichen, werden riesige Mengen an Textdaten verwendet, um die Modelle zu trainieren und ihnen beizubringen, natürliche Sprache zu verstehen und zu generieren. Dies umfasst Texte aus dem Internet, Büchern, Artikeln, Foren, sozialen Medien und anderen Quellen, um ein umfassendes Verständnis der menschlichen Sprache und des Wissens zu entwickeln.

Im Gegensatz zur klassischen Suchmaschine, welche relevante Dokumente von Dritten zu einer Suchanfrage liefert, zielen GPTs und LLMs darauf ab, direkte Antworten auf komplexe Fragen zu liefern und natürliche Dialoge mit den Benutzern zu führen. Dies kann dazu beitragen, dass Benutzer schnell und effizient Informationen finden und komplexe Fragen beantwortet bekommen, ohne auf mehrere Suchergebnisse klicken zu müssen.

Einige der Vorteile von GPTs und LLMs als Suchmaschinen sind:

  • Natürliche Sprachverarbeitung: Die Fähigkeit, natürliche Sprache zu verstehen und zu generieren, ermöglicht es Benutzern, komplexe Fragen zu stellen und direkte Antworten zu erhalten.
  • Effizienz: Durch die direkte Beantwortung von Fragen können Benutzer schnell und effizient Informationen finden, ohne auf mehrere Suchergebnisse klicken zu müssen.
  • Personalisierung: Durch das Verständnis der Benutzeranfragen können GPTs und LLMs personalisierte Antworten und Empfehlungen liefern, die auf den individuellen Bedürfnissen und Interessen der Benutzer basieren.

ABER …

Gerade die Personalisierung und die direkte Beantwortung von Fragen durch GPTs und LLMs kann auch zu Problemen führen:

  • Einseitige Informationsgewinnung: Durch die direkte Beantwortung von Fragen können Benutzer nur eine begrenzte Auswahl an Informationen erhalten, was zu einer einseitigen Informationsgewinnung führen kann. Der Effekt einer Filterblase (wie bei Suchmaschinen) kann hierdurch noch verstärkt werden.
  • Fehlinformationen: Da die Modelle auf riesigen Textdaten trainiert werden, können sie auch Fehlinformationen und Vorurteile enthalten und weiterverbreiten.
  • Manipulation: Die Modelle können auch (durch Selektivität bei der Zusammenstellung der Trainingsdaten) manipuliert oder beeinflusst werden, um bestimmte Interessen zu fördern oder zu unterdrücken.
  • Datenschutz: Die Verwendung von GPTs und LLMs erfordert z.T. (je nach Aufgabe) den Upload von Informationen und Daten, was Datenschutzbedenken aufwerfen kann.
  • Abhängigkeit von großen Unternehmen: Die Modelle werden von großen Unternehmen wie OpenAI oder Google entwickelt und betrieben, was zu einer Abhängigkeit von diesen Unternehmen führen kann.
  • Begrenzte Aktualität: Die Qualität und vor allem Aktualität der Antworten hängt stark von den Trainingsdaten ab, was zu Problemen führen kann, wenn die Daten veraltet sind oder nicht aktualisiert werden.

Zusammenfassung


Key Points

  • Browser sind komplexe Programme, die viele Funktionen und Dienste integrieren, um Benutzern das Surfen im Internet zu ermöglichen.
  • Webseiten bestehen aus HTML, CSS und JavaScript, welche die Struktur, das Design und die Interaktivität der Seiten definieren.
  • Cookies speichern webseitenspezifisch Informationen auf dem Gerät des Benutzers, um Einstellungen und Präferenzen zu speichern.
  • Mit Hilfe von Cookies, JavaScript und anderen Technologien können Webseiten Benutzerdaten sammeln und verarbeiten.
  • Suchmaschinen sind spezialisierte Dienste, die Benutzern helfen, Informationen im Internet zu finden, indem sie relevante Dokumente zu einer Suchanfrage liefern.
  • Einseitige Informationen (durch Personalisierung), Datenschutz, Zensur und Manipulation sind Hauptrisiken und Probleme bei der Nutzung des Internets.

Einordnung im Datenlebenszyklus

Datenlebenszyklus
In welchen Phasen im Datenlebenszyklus sehen sie obige Punkte als besonders wichtig an?

Browser und das Suchen und Finden von Informationen im Internet sind eng mit allen Phasen des Datenlebenszyklus verknüpft.

Einen besonderen Einfluss haben sie jedoch in den Phasen Planning und Generating, denn bei der Planung und Generierung/Sammlung von Daten und Informationen spielen Browser und Suchmaschinen eine wichtige Rolle. Eine unvollständige oder einseitige Datenbasis kann zu Verzerrungen und Fehlern in den späteren Phasen führen.

Content from Netzwerke


Last updated on 2025-01-13 | Edit this page

Estimated time: 40 minutes

Overview

Questions

  • Router?
  • Ports?
  • Firewall?
  • Logging?

Objectives

  • Wie funktioniert das Internet?
  • Wie finden die Daten ihr Ziel?
  • Wie kann ich mich schützen?
  • Wer sieht was ich im Internet mache?

Die Verwendung des Internets ist heute allgegenwärtig. Doch wie funktioniert das Internet eigentlich? Wie finden die Daten ihren Weg? Und wie kann ich mich schützen? Auf diese und ähnliche Fragen wollen wir im Folgenden eingehen.

Computernetzwerke und das Internet


Ein Computernetzwerk ist eine Ansammlung von Rechnern, die miteinander verbunden sind und Informationen austauschen können. Hierbei ist die Art der Verbindung entscheidend und diese kann sowohl kabelgebunden (z.B. via elektrischem oder Glasfaserleiter) als auch drahtlos (z.B. via Funk, Satelit, Infrarot, …) erfolgen. Kabelgebundene Verbindungen sind in der Regel schneller und sicherer, während drahtlose Verbindungen flexibler sind und keine physische Verbindung benötigen. Daher sind drahtlose Verbindungen insbesondere für mobile Geräte wie Smartphones und Tablets von Bedeutung wohingegen kabelgebundene Verbindungen in Büroumgebungen oder Rechenzentren vorherrschen bzw. Knotenpunkte im Internet miteinander verbinden.

Das Internet selbst ist ein weltweites Netzwerk von Computernetzwerken, das auf dem Internetprotokoll (IP) basiert. Das Internetprotokoll ist ein Regelwerk, das den Datenaustausch zwischen Rechnern regelt und dabei die Daten in Pakete aufteilt, die über das Netzwerk verschickt werden. Die Pakete enthalten neben den eigentlichen Daten auch Informationen über den Absender und Empfänger, sodass die Pakete ihren Weg durch das Netzwerk finden können. Die Pakete werden dabei von Routern weitergeleitet, die die Pakete anhand der Empfängeradresse an den nächsten Knotenpunkt im Netzwerk weiterleiten. Die Knotenpunkte sind dabei die Verbindungen zwischen den einzelnen Netzwerken und können sowohl kabelgebunden als auch drahtlos sein. Da Satelit, Funk und andere drahtlose Verbindungen eine (relativ) geringere Bandbreite und “Transportgeschwindigkeit” haben, werden diese in der Regel nur für die letzte Meile verwendet, also die Verbindung zwischen dem Endgerät und dem nächsten Knotenpunkt. Zwischen den Knotenpunkten werden in der Regel Glasfaserleitungen verwendet, die eine hohe Bandbreite und Geschwindigkeit haben. Um die Kommunikation zwischen Kontinenten und Ländern zu ermöglichen, werden unterseeische Kabel verwendet, welche im Folgenden visualisiert sind.

Unterseeische Kabel
Unterseeische Kabel verbinden Kontinente und Inseln. Der folgende Quelllink liefert eine interaktive Kartendarstellung. (Quelle: TeleGeography)

Lebensadern des Internets

Unterseeische Kabel sind die Lebensadern des Internets. Das diese dennoch anfällig sind, zeigt der Schiffsankerschaden 2019 und der Vulkansausbruch 2022 in Tonga, welche die Kommunikation des Inselstaates mit der Außenwelt unterbrachen.

Die folgenden beiden Artikel geben exemplarisch einen kurzen Einblick in die Bedeutung und Funktionsweise von Unterseekabeln:

Damit die Datenpakete ihren Weg durch das Netzwerk finden, benötigen sie eine Adresse, die den Weg durch das Netzwerk beschreibt. Diese Adresse ist die IP-Adresse, die aus einer Kombination von Zahlen und Punkten besteht. Zum Beispiel hat der Server (Computer), der die Webseite der Universität Tübingen bereitstellt, die IP-Adresse 134.2.5.1. Allerdings gibt es mehr Geräte im Internet als es IP-Adressen gibt, sodass die IP-Adressen in der Regel dynamisch vergeben werden (sich also immer wieder ändern) bzw. innerhalb eines Netzwerkes lokal sind.

Um sich den Kommunikationsprozess und die IP-Lokalität vorzustellen, hier eine kleine Analogie:

  • Sie machen Urlaub in einem Hotel im Zimmer Nummer 5.
  • Wenn Sie eine Postkarte verschicken möchten, schreiben Sie die Zieladresse auf die Postkarte.
  • Diese geben sie beim Portier in Zimmer Nummer 1 ab, der die Postkarte an den Empfänger weiterleitet.
  • Hierzu verlässt der Portier das Hotel und gibt die Postkarte an den Briefträger, der diese ins Briefzentrum bringt.
  • Im Briefzentrum wird die Postkarte an ein Verteilzentrum weitergeleitet, welches die Postkarte an ein Verteilzentrum in der Nähe des Empfängers weiterleitet.
  • Von dort gehts ins entsprechende Briefzentrum und von dort zum Empfänger.

Das bedeutet, dass für die Weiterleitung der Postkarte mehrere Personen und Einrichtungen beteiligt sind, die die Postkarte anhand der Adresse weiterleiten, obwohl die meisten von ihnen den Zielort bzw. dessen Lokalisierung gar nicht kennen (Sie selbst, der Portier, der lokale Briefträger, …).

Wenn sie nun Post empfangen möchten, sehen sie an obiger Analogie, dass es nicht reicht, dass die Antwort an sie an Zimmer Nummer 5 adressiert wird. Ohne die Hoteladresse wird sie die Antwort nicht erreichen. Je nach Distanz bedarf es auch noch der Information über die Stadt oder sogar das Land, in dem das Hotel liegt. Zudem bedarf es des lokalen Portiers, der die Postkarte in Zimmer 1 entgegennimmt und an sie ins Zimmer 5 weiterleitet.

Ähnliches gilt auch für das Internet:

  • Ihr Computer, an dem sie eine Nachricht verschicken, hat eine IP-Adresse (Zimmernummer) innerhalb ihres lokalen Netzwerkes (Hotel).
  • Um eine Nachricht ins Internet zu senden, benötigen sie einen Router (Portier), der die Nachricht an den nächsten Knotenpunkt weiterleitet.
  • Hierzu muss der Router sich mit dem Internet verbinden (Hotel verlassen). Diese Verbindung wird durch einen Internet Service Provider (ISP) bereitgestellt, der ihrem Router eine IP-Adresse zuweist (Hoteladresse).
  • Diese ist eine andere als die IP-Adresse des Routers innerhalb ihres lokalen Netzwerkes! Der Portier lebt also in zwei Welten und hat zwei Adressen: eine innerhalb des Hotels, um für Gäste erreichbar zu sein (Zimmer 1), und eine außerhalb des Hotels (Hoteladresse), um die Post des Hotels zentral entgegen nehmen zu können.

Wie funktioniert das Internet?

Die Idee ist in folgender Grafik dargestellt, die in Blogbeitrag Wie funktioniert das Internet? näher beschrieben wird.

Routing und IP-Adressen im Internet
Routing und IP-Adressen im Internet (Quelle: Dr. Datenschutz)

Was sie an der obigen Analogie aber auch erkennen können: jeder der Beteiligten könnte die Postkarte lesen, wenn er wollte!

Das gleiche trifft auch auf das Internet zu: die Datenpakete werden von verschiedenen Knotenpunkten weitergeleitet, die die Pakete anhand der IP-Adresse an den nächsten Knotenpunkt weiterleiten. Wenn die Datenpakete unverschlüsselt sind, können die Knotenpunkte die Datenpakete lesen und ggf. manipulieren. Daher ist es i.d.R. wichtig, die Datenpakete zu verschlüsseln, um die Daten vor unbefugtem Zugriff zu schützen.

HTTPS-Verschlüsselung


Die meisten Webseiten verwenden das HTTPS-Protokoll, um die Datenpakete zu verschlüsseln. Das heisst, bevor irgendwelche Informationen/Daten zwischen ihrem Computer und dem Zielcomputer (Webserver) ausgetauscht werden, tauschen beide Computer “Schlüssel” aus, mit denen der nachfolgende Datenaustausch verschlüsselt werden.

Um das “Henne-Ei-Problem” zu lösen, da die Schlüssel ja auch übertragen werden müssen, wird ein sogenanntes Public-Key-Verfahren verwendet. Hierbei gibt ein Rechner einen öffentlichen Schlüssel aus, mit dem jeder Nachrichten an diesen verschlüsseln kann. Allerdings hat nur der Rechner selbst den geheimen privaten Schlüssel, mit dem die Nachricht auch wieder entschlüsselt werden kann. Auf diese Weise kann man ein Geheimnis an jemanden übermitteln, mit dem dann nur dieser etwas anfangen kann.

Im Falle des HTTPS-Protokolls wird der öffentliche Schlüssel des Webservers genutzt, um die Daten zu verschlüsseln, die dann nur der Webserver entschlüsseln kann.

Der Ablauf ist in folgender Grafik illustriert.

Ablauf der HTTPS-Verschlüsselung
Ablauf des Aufbaus einer HTTPS Verschlüsselung. Hierbei wird mittles public-key-Verschlüsselung ein geheimer Schlüssel an den Webserver gesendet, der eine anschliessende schnelle “symmetrische” Verschlüsselung ermöglicht. (Quelle: tiptopsecurity.com)

ABER …

Aber wie stellen wir sicher, dass wir überhaupt mit dem richtigen Webserver kommunizieren? Hierzu gibt es sogenannte Zertifikate, die von Zertifizierungsstellen (Certification Authorities, CAs) ausgestellt werden. Diese Zertifikate enthalten den öffentlichen Schlüssel des Webservers und sind von der Zertifizierungsstelle signiert. Das bedeutet, dass die Zertifizierungsstelle bestätigt, dass der öffentliche Schlüssel tatsächlich zum Webserver gehört. Die Zertifikate werden von den Webbrowsern genutzt, um die Identität des Webservers zu überprüfen. Da die Zertifikate zeitlich begrenzt sind, müssen sie regelmäßig erneuert werden.

Wer sieht was?


Trotz Verschlüsselung können alle beteiligten Computer die Metadaten der Datenpakete lesen. Diese Metadaten enthalten Informationen über den Absender, den Empfänger, die Größe des Datenpakets, den Zeitpunkt des Versands, … Dies umfasst u.a. auch die Adresse (URL/IP) der Zielwebseite.

Somit kann z.B. der lokale Router (Portier) sehen, welche Webseiten besucht wurden. Jeder der Zugriff auf diesen (also z.B. ihre lokale FritzBox oder dergleichen) hat (entweder von aussen oder direkt von innerhalb ihres lokalen Netzwerkes), kann diese Metadaten einsehen.

Metadaten Kommunikation

Denken sie kurz über die folgende Frage nach:

Was könnte man aus der Historie ihrer besuchten Webseiten etc. ablesen?

  • Was ist ihre Bank?
  • Wo kaufen sie ein?
  • Welche Nachrichtenseiten lesen sie?

Diese Informationen werden z.T. auch in Logfiles im Router gespeichert.

Auch der Internet Service Provider (ISP) kann sehen, welche Webseiten besucht wurden, welche Apps genutzt wurden, … Dieser ist sogar, aufgrund der Vorratsdatenspeicherung, verpflichtet, diese Daten für eine bestimmte Zeit zu speichern, um diese ggf. zur Aufklärung von Straftaten zur Verfügung zu stellen. Wenn also jemand Zugriff auf diese Daten erhält, kann er ein ziemlich genaues Bild über ihre Aktivitäten im Internet erstellen.

Das gleiche gilt auch für frei verfügbare WLAN-Anbieter (Cafe, Bahnhof, …), die die Datenpakete ihrer Nutzer mitlesen können.

Auch der Webserver, mit dem sie kommunizieren, kann die Metadaten der Datenpakete sehen und auswerten. Und wenn sie sich auf einer Webseite registrieren und eingeloggt sind, dann kann der Webseitenbetreiber auch noch weitere Informationen über sie sammeln.

VPN


Eine VPN-Verbindung (Virtual Private Network) kann helfen, ihre Daten vor neugierigen Blicken zu schützen. Hierbei wird eine verschlüsselte Verbindung zu einem VPN-Server aufgebaut, der dann die Datenpakete weiterleitet.

VPN-Verbindung
Kommuniation mit und ohne VPN-Verbindung (Quelle: top10vpn.com)

Der Datenverkehr zwischen ihrem Computer und dem VPN-Server ist verschlüsselt, so dass niemand die Datenpakete lesen kann. Erst der VPN-Server entschlüsselt die Datenpakete und stellt die Verbindung zum Zielserver her. Dadurch kann der Zielserver nur die IP-Adresse des VPN-Servers sehen, nicht aber ihre eigene IP-Adresse. Der VPN-Server kann zwar die Metadaten der Datenpakete sehen, aber er kennt nicht den Inhalt der Datenpakete, wenn diese (z.B. via HTTPS) verschlüsselt sind.

Somit können lokale Router, ISPs, WLAN-Anbieter, … nicht mehr sehen, welche Webseiten besucht werden.

ABER …

Aber der VPN-Anbieter kann die Metadaten der Datenpakete sehen und auswertenm, da er diese ja für sie weiterleitet und entgegennimmt. Auch der Internetprovider des VPN-Anbieters kann die Metadaten der Datenpakete sehen und auswerten, auch wenn diesem die Zuordnung zu ihnen nicht bekannt ist.

VPN schützt also vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter und dessen Internetprovider. Somit sollten sie sich gut überlegen, welchem VPN-Anbieter sie vertrauen.

Ein weiterer Nachteil von VPN ist, dass die Datenpakete über den VPN-Server geleitet werden, was zu einer Verlangsamung der Verbindung führen kann. Allerdings bieten VPN-Anbieter auch Server in verschiedenen Ländern an, so dass sie z.B. über eine IP-Adresse aus einem anderen Land (die des VPN Servers) mit dem Internet kommunizieren, um z.B. Geoblocking oder lokalisierte Werbung zu umgehen.

DNS


Soweit haben wir uns nur mit der Kommunikation zwischen ihrem Computer und dem Webserver beschäftigt, welche auf der Adressierung über IP-Adressen basiert. Allerdings werden IP-Adressen i.d.R. nur bei automatisierten Prozessen verwendet und direkt eingegeben. Wenn sie eine Webseite besuchen, dann geben sie zumeist den Namen einer Webseite ein (z.B. www.uni-tuebingen.de) und nicht die IP-Adresse des dazu gehörigen Webservers.

Die Übersetzung von Namen in IP-Adressen wird über das Domain Name System (DNS) realisiert. Hierfür gibt es spezielle DNS-Server, die die Namen in IP-Adressen übersetzen. Sprich bevor ihr Computer eine Anfrage an den Webserver sendet, fragt er zuerst einen DNS-Server nach der IP-Adresse des Webservers.

In den meisten Fällen wird der DNS-Server von ihrem Internetprovider genutzt. Hier eine mögliche Liste von deutschen DNS Servern. Falls sie eine VPN-Verbindung nutzen, dann erfolgt die DNS-Anfrage über den VPN-Server (bzw. wird von diesem zu dessen DNS-Server weitergeleitet). In beiden Fällen kann der DNS-Server sehen, welche Webseiten besucht werden, da er ja die Anfragen nach den IP-Adressen der Webserver erhält.

Zudem kann auch eine Zensur durch DNS-Server erfolgen, indem der DNS-Server die Anfrage nach bestimmten Webseiten verweigert und ihnen keine oder eine andere IP-Adresse zurückliefert.. Allerdings können sie auch manuell einen anderen DNS-Server einstellen, um z.B. derartige Einschränkungen zu umgehen. Allerdings sollten sie sich auch hier gut überlegen, welchem DNS-Server (Anbieter) sie vertrauen.

URL


Der “Name” einer Webseite wird in mittels einer URL (Uniform Resource Locator) angegeben. Die URL besteht aus mehreren Teilen, die die Adresse des Webservers und den Pfad zur gewünschten Ressource (Webseite, Bild, …) beschreiben. Hier als Beispiel die URL der Login-Seite für den ILIAS Server der Universität Tübingen:

TXT


Markierung
     Protokollende              Serverende    Zielende  Argumenttrenner
     |||                        |                |       |
https://ovidius.uni-tuebingen.de/ilias3/login.php?lang=en&cmd=force_login
|       |                        |      |         |       
|       |                        |      |         +--- Argumente (&-getrennte key-value Paare)
|       |                        |      |              hier: Sprache der Webseite & erzwungener Login
|       |                        |      +--- Name der Ressource (i.d.R. Datei auf dem Webserver)
|       |                        |           hier: dynamische Webseite
|       |                        +--- Pfad zur Ressource 
|       |                             = virtuelle Ordnerstruktur
|       +--- Name des Webservers (oder IP-Adresse)
|            hierfür muss IP-Adresse über DNS aufgelöst werden
+--- Übertragungsprotokoll
     hier: "verschlüsselte Webseite"
     

Die URL wird in der Regel in der Adresszeile des Browsers angezeigt und kann auch manuell eingegeben werden. So kann man bereits durch einen kurzen Blick auf die URL einiges erkennen, z.B.

  • ob die Verbindung verschlüsselt ist (hier durch das https://).
  • ob die Webseite überhaupt auf einem Server der gewünschten Organisation liegt (hier uni-tuebingen.de). Der Name des Webservers ist i.d.R. rückwärts zu lesen, d.h. von der allgemeinen Domain (hier uni-tuebingen.de) zum spezifischen Server (hier ovidius). Das heißt, dass der Webserver ovidius zu den Servern der Domäne uni-tuebingen.de gehört. Hierdurch lassen sich auch Subdomains (z.B. www.uni-tuebingen.de ist der Webserver) und spezielle Dienste (z.B. ovidius.uni-tuebingen.de als Name für den ILIAS Server) unterscheiden. Es sollte darauf geachtet werden, dass die URL auch wirklich zur gewünschten Organisation gehört, da es z.B. Phishing-Seiten gibt, die im Link zwar den Namen einer bekannten Organisation verwenden, um Nutzer zu täuschen, aber auf einen anderen Server verweisen (Beispiel kommt gleich).
  • Durch Argumente in der URL können z.B. Parameter an die Webseite übergeben werden, die dann in der Darstellung oder Funktionalität der Webseite berücksichtigt werden. In obigem Beispiel wird die Sprache der Webseite auf Englisch gesetzt und ein erzwungener Login durchgeführt. Online-Shops, wie z.B. Amazon, verwenden die Argumente in der URL, um unabhängig von Cookies etc. die Session des Benutzers zu identifizieren und den Warenkorb zu speichern.

Der Name der Resource (hier login.php) sowie die Webseitenargumente (hier lang=en&cmd=force_login) sind bei vielen Webanfragen optional und werden i.d.R. vom Webserver interpretiert. Das heisst der Webserver entschiedet, welche (Standard)Ressource zurückgegeben wird und wie die Argumente verarbeitet werden. So führt z.B. die Teil-URL https://ovidius.uni-tuebingen.de/ilias3/ zur gleichen Resource wie das obige Beispiel.

Zusammenfassung


Key Points

  • Jeder Computer ist über seine IP-Adresse (im Internet) identifizierbar.
  • Zertifikate bestätigen die Identität von Webservern.
  • Datenpakete zwischen Computern werden “von Knoten zu Knoten” weitergeleitet.
  • HTTPS verschlüsselt die Datenpakete.
  • Metadaten der Datenpakete können von lokalen Routern, ISPs, WLAN-Anbietern, … eingesehen werden.
  • VPN schützt vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter.
  • URLs beschreiben das Zieldokument inklusive des Namens des Webservers etc.
  • Webservernamen werden durch DNS-Server in IP-Adressen aufgelöst

Einordnung im Datenlebenszyklus

Datenlebenszyklus
In welchen Phasen im Datenlebenszyklus sehen sie obige Punkte als besonders wichtig an?

Das Wissen um Netzwerkkommunikation und Verschlüsselung ist in allen Phasen des Datenlebenszyklus wichtig. Kenntnisse darum erleichtern uns, Probleme und Ursachen zu erkennen und zu lösen, die im Zusammenhang mit der Kommunikation von Daten auftreten können.

Immer dann, wenn wir auf fremde Rechner zugreifen oder mit diesen interagieren, sollte uns bewusst sein, dass wir dabei Spuren hinterlassen und dass diese Spuren auch von anderen eingesehen werden können.