Basics Forschungsdatenmanagement: Alles auf einen Blick

Content from Forschungsdaten

Zuletzt aktualisiert am 2025-04-24 | Diese Seite bearbeiten

Geschätzte Zeit: 35 Minuten

Übersicht

Fragen

Forschungsdaten?
Teilen?
F.A.I.R.?

Ziele

Eingrenzen was Forschungsdaten sind
Reflektieren warum Forschungsdaten geteilt werden sollten
Einführung in die F.A.I.R.-Prinzipien

Was ist das?

Forschungsdaten sind die Grundlage wissenschaftlicher Erkenntnisse und können in unterschiedlichen Formen vorliegen.

Im Folgenden werden wir auf einige externe Seiten verweisen, die Ihnen einen Überblick über Forschungsdaten und deren Management geben.

Was zählt zu Forschungsdaten?

Studieren sie folgende Seite von Forschungsdaten.info und machen sie sich Notizen.

Was sind Forschungsdaten?

Sind das schon Forschungsdaten?

Reflektieren sie kurz über die folgende Frage:

Was macht eine Datei zu Forschungsdaten?

Antwort

Üblicherweise handelt es sich bei Forschungsdaten um Rohdaten, denn das Filtern, Verarbeiten und Interpretieren der Daten im Rahmen einer Forschungsfrage beeinflusst die Daten und macht sie zu Ergebnisdaten. Zudem sollten die Daten strukturiert und dokumentiert sein, um sie für (sich selbst und) andere Forschende nachvollziehbar zu machen. Eine lose Textdatei mit Notizen oder eine Präsentation sind daher i.d.R. keine Forschungsdaten, sondern eher Ergebnisse oder Dokumentationen. Ob die Daten in einem nachnutzbaren Format vorliegen, ist zentral für die Wiederverwendbarkeit und wird durch die F.A.I.R.-Prinzipien adressiert, die wir bald kennenlernen werden.

Das heißt, Forschungsdaten sind nicht nur die Rohdaten, sondern auch die Metadaten, die Dokumentation und die Software, die zur Erhebung und Analyse der Daten verwendet wurde.

Warum teilen?

In der Vergangenheit wurden Forschungsdaten i.d.R. nicht publiziert, sondern nur die Ergebnisse der Forschung. Das hat sich in den letzten Jahren geändert, und es wird immer wichtiger, auch die Daten zu publizieren, um die Nachvollziehbarkeit und Wiederverwendbarkeit der Forschung zu gewährleisten.

Warum sollten Forschungsdaten geteilt werden?

Die folgende Seite von Forschungsdaten.info diskutiert

Vorteile einer Datenpublikation (nur erster Teil der Seite!!!)

Und was hab ich davon?

Überlegen sie sich 3-4 Punkte, die für sie persönlich aus der Publikation von Forschungsdaten resultieren (könnten).

Möglichkeiten (nachdem sie nachgedacht haben..)

Die folgenden Punkte betreffen sowohl ihre eigene Forschung als auch die Forschung/Daten anderer.

Nachvollziehbarkeit: Forschungsergebnisse können überprüft werden
Wiederverwendbarkeit: Neue Forschung kann auf bestehenden Daten aufbauen
Vergleichbarkeit: Daten können mit anderen Daten verglichen werden
Nachhaltigkeit: Daten werden ggf. nicht doppelt erhoben
Sichtbarkeit: Forschung wird bekannter und Erhebungsaufwand wertschätzbar
Kollaboration: Kontakt zu anderen Forschenden, die an ähnlichen Themen arbeiten
Reputation: Wissenschaftliche Zitierbarkeit und Anerkennung von Datenerhebung
Förderung: Einige Fördergeber*innen verlangen die Publikation von Daten
Lehre: Daten können in der Lehre verwendet werden
Open Science: Beitrag zur offenen Wissenschaft und Wissenschaftskommunikation
…

F.A.I.R.-Prinzipien

Das Teilen von Daten wird durch die F.A.I.R.-Prinzipien unterstützt, die die Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit von Daten fördern. Dies betrifft sowohl den eigenen Zugriff auf schon geteilte Daten als auch die Veröffentlichung eigener Daten.

Und was sind FAIRe Daten?

Auch dazu gibt es von Forschungsdaten.info eine schöne Seite.

FAIRe Daten

Dokumentation, Dokumentation, Dokumentation

Warum nimmt Dokumentation bei Daten eine so große Rolle ein?

Formulieren sie 3-4 Fragen, die sie sich stellen würden, wenn sie Daten von jemand anderem erhalten und die ohne Dokumentation nicht zu beantworten wären!

Mögliche Fragen …

Ohne oder bei eingeschränkter Dokumentation können folgende Fragen nicht beantwortet werden.

Welche Bedeutung haben die Daten/Werte/…?
Wurden die Daten verändert, gefiltert, nachbearbeitet?
Welche Rahmenbedingungen gab es bei der Datenerhebung?
Welche Software wurde zur Analyse verwendet?
Darf ich die Daten weiterverwenden?
Wie kann ich die Daten zitieren?
Wen kann ich bei Fragen kontaktieren?
…

Zusammenfassung

Hauptpunkte

Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
Forschungsdaten sollten geteilt werden.
Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten.
Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.

Einordnung im Datenlebenszyklus

Antwort

Eigentlich in allen Phasen, da eine gute Dokumentation und Strukturierung der Daten die Nachvollziehbarkeit und Wiederverwendbarkeit in allen Phasen des Lebenszyklus unterstützt.

Planung: Dokumentation der Forschungsfrage und der zu verwendenden Daten/Quellen
Erhebung: Dokumentation der Rahmenbedingungen und der Datenerhebung
Analyse: Dokumentation der Analyse und der Software
Publikation: Teilen der Daten und Dokumentation
Archivierung: Langfristige Sicherung und Zugänglichkeit der Daten
Nachnutzung: Nachvollziehbarkeit und Wiederverwendbarkeit der Daten

Content from Finden und Zitieren

Zuletzt aktualisiert am 2025-04-24 | Diese Seite bearbeiten

Geschätzte Zeit: 50 Minuten

Übersicht

Fragen

Wo?
Wie?
Wer?

Ziele

Öffentliche Repositorien für Forschungsdaten
Gezielte Suche nach Forschungsdaten
Zitieren von Forschungsdaten

Um Forschungsdaten findbar und zugänglich zu machen, werden diese in speziellen Repositorien und Datenbanken abgelegt. Hierbei wird unterschieden in fachspezifische und allgemeine Repositorien. Die Datenbanken und Repositorien sind in der Regel öffentlich zugänglich und bieten die Möglichkeit, Daten zu suchen, zu finden und herunterzuladen.

Das Suchen und Finden von Forschungsdaten ist jedoch nicht immer so einfach, wie es klingt. Daher gibt es einige Tipps und Tricks, die die Suche erleichtern können.

Zudem muss geprüft werden, ob die Daten in einer Form vorliegen, die eine Wiederverwendung ermöglicht. Auch Lizenzfragen sind zu klären.

Final ist es wichtig, die gefundenen Daten korrekt zu zitieren, um die Quelle zu kennzeichnen und Wiederverwendung sichtbar zu machen.

All diese Punkte werden in einem Lernmodul der Friedrich-Alexander-Universität Erlangen-Nürnberg näher beleuchtet, welches im Folgenden durchgearbeitet werden soll

Lernmodul “Forschungsdaten suchen & nachnutzen”

Arbeiten sie sich durch das Lernmodul der Friedrich-Alexander-Universität Erlangen-Nürnberg.

Bitte auch die dortigen Wissenstests an den Seitenenden durchführen!

Zusammenfassung

Hauptpunkte

Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
Es gibt fachspezifische und allgemeine Repositorien.
Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
Lizenzen müssen die Wiederverwendung erlauben.
Korrekte Zitation ist zentral in wissenschaftlicher Praxis.

Einordnung im Datenlebenszyklus

Antwort

Datenrecherche und Zitation sind vorrangig zu Beginn und am Ende des Datenlebenszyklus wichtig.

Planung: Schlagworte etc. für spätere Suche festlegen
Erhebung: Wiederverwendung von Daten
Publikation: Zitation von verwendeten Daten
Archivierung: Festlegung von Metadaten, Identifiern und Lizenzen, um Wiederverwendung zu ermöglichen
Nachnutzung: Daten/Quellen identifizieren, bewerten und einordnen

Hinweis für den Dozenten

Sitzungsaufgabe zu “Finden und Zitieren”

Content from Digitale Daten

Zuletzt aktualisiert am 2025-05-08 | Diese Seite bearbeiten

Geschätzte Zeit: 60 Minuten

Übersicht

Fragen

Wie wird … gespeichert?
Was gibt es für Probleme?
Worauf muss man achten?

Ziele

Verständnis wie verschiedene Informationstypen digital repräsentiert sind
Wissen um die Grenzen und Schwierigkeiten von Informationsspeicherung
Lösungsstrategien für häufige Daten(import)probleme

Grundlegende Formen von Information sind Texte, Zahlen, Zeiten, Farben (für Bild und Video) und Audio. Wenn wir an diese denken, haben wir meistens eine Vorstellung von einem physischen Medium wie einem Blatt Papier etc., auf dem diese gespeichert sind. Eine solche Form der Informationsspeicherung wird als analoge Speicherung bezeichnet.

In Computern wird Information in Form von digitalen Daten gespeichert. Digital bedeuted, vereinfacht gesagt, dass die Information in Form von Zahlen gespeichert wird, die wiederum in Form von elektrischen Signalen (z.B. “Strom an oder aus”) repräsentiert werden. Letzteres ist die Grundlage für die Funktionsweise von Computern.

Das bedeutet, dass alle Informationen, die wir in Computern speichern, in Form von Zahlen repräsentiert werden muss. Eine weitere wichtige Eigenschaft von digitalen Daten ist, dass sie in diskreten Einheiten gespeichert werden, also i.d.R. in Form von ganzen Zahlen.

Im Folgenden werden wir uns mit den verschiedenen Arten von Information und deren digitaler Repräsentation beschäftigen.

Text

Text ist die einfachste Form von digitalen Daten. Text wird in Computern in Form von Zeichenketten gespeichert, das heißt einer Abfolge von Zeichen. Jedes Zeichen wird dabei durch eine Zahl repräsentiert, wobei die Zuordnung von Zeichen zu Zahlen durch eine Zeichenkodierung festgelegt wird. Letztere ist eine Tabelle, die jedem Zeichen eine Zahl zuordnet.

Die bekannteste und eine der ersten ist die ASCII-Kodierung (American Standard Code for Information Interchange), welche 128 Zeichen umfasst und im Folgenden dargestellt ist.

Wenn wir die Tabelle betrachten, fällt uns auf, dass nicht nur Buchstaben oder Ziffern, sondern auch Sonderzeichen und Steuerzeichen (z.B. Zeilenumbruch) enthalten sind. Zudem fehlen Umlaute und Sonderzeichen, die in anderen Sprachen verwendet werden.

Daher wurden im Laufe der Zeit weitere Zeichenkodierungen entwickelt, die mehr Zeichen umfassen. Hier ein paar Beispiele:

latin1 (ISO-8859-1): 256 Zeichen, enthält Umlaute und Sonderzeichen für westeuropäische Sprachen
latin2 (ISO-8859-2): 256 Zeichen, enthält Umlaute und Sonderzeichen für osteuropäische Sprachen
GB2312: 6.763 Zeichen, enthält chinesische Schriftzeichen
UTF-8: 1.112.064 Zeichen, enthält fast alle Schriftzeichen der Welt

Hierbei ist zu beachten, dass die erweiterten Zeichenkodierungen rückwärtskompatibel sind, d.h. die Zahlen-Buchstaben-Kodierungen der ersten 128 Zahlen entsprechen i.d.R. der “alten” ASCII-Kodierungen.

Aktuell ist UTF-8 die am weitesten verbreitete Zeichenkodierung, da sie fast alle Schriftzeichen der Welt umfasst und daher für die meisten Anwendungsfälle geeignet ist. Diese Kodierung wird auch von den meisten neueren Betriebssystemen und Anwendungen standardmäßig verwendet.

Kodierungsprobleme

Was kann passieren, wenn ein Text mit latin1-Kodierung abgespeichert wird (also in Zahlen umgewandelt wird) und anschliessend mit latin2-Kodierung gelesen wird (also die Zahlen wieder mit Buchstaben ersetzt werden)?

Antwort

Es werden falsche Zeichen angezeigt, da die Zahlen-Buchstaben-Zuordnung nicht übereinstimmt.

Das Problem mit den verschiedenen Zeichencodierungen ist, dass beim Öffnen einer Datei mit einer anderen Codierung als der, in der sie gespeichert wurde, die Zeichen falsch dargestellt werden. Daher ist es wichtig, die Codierung einer Datei zu kennen, um sie korrekt lesen zu können. Ein deutliches Zeichen, dass die falsche Codierung verwendet wird, ist, wenn anstelle von Umlauten oder Sonderzeichen nur Fragezeichen oder andere Zeichen angezeigt werden, wie in folgendem Bild.

Dies tritt häufig auf, wenn man mit älteren Dateien arbeitet, was gerade im wissenschaftlichen Bereich in der Datennachnutzung von Daten immer wieder vorkommt.

Hinweis

In diesem Fall, muss man händisch die Codierung ändern, um den Text korrekt darzustellen. Hier bleibt häufig nichts weiter übrig, als die Codierung auszuprobieren, bis der Text korrekt dargestellt wird. Dabei ist es hilfreich, über den Ursprung der Datei Bescheid zu wissen.

Hier kommt wieder die Dokumentation von Daten ins Spiel!

Zeilenumbruch im Text

Ein weiteres Problem, das beim Lesen und Verarbeiten von Textdateien auftreten kann, ist der Zeilenumbruch, also das Zeichen, das angibt, dass eine neue Zeile beginnt. In aktuellen Betriebssystemen wird der Zeilenumbruch unterschiedlich abgespeichert:

Windows: \r\n (zwei Zeichen: Carriage Return und Line Feed)
Linux: \n (ein Zeichen: Line Feed)
MacOS: \r oder \n, je nach Alter des Betriebssystems (Carriage Return oder Line Feed)

Dies kann dazu führen, dass Textdateien auf einem Betriebssystem, auf dem sie nicht erstellt wurden, nicht korrekt dargestellt oder verarbeitet werden können.

Hinweis

Texteditoren wie Notepad++ oder Visual Studio Code können automatisch die Zeilenumbrüche in Textdateien erkennen und korrekt darstellen. Auch ist es dort möglich, die Zeilenumbrüche in einem Textdokument zu konvertieren, d.h. von einem Format in ein anderes zu ändern.

Zahlen

Bei der Darstellung von Zahlen werden zwei Formen unterschieden: Ganzzahlen und Fließkommazahlen.

Ganzzahlen

Ganzzahlen, also 1, 13, 42, oder 987654321, werden in Computern durch ihre Zerlegung in 2er-Potenzen gespeichert. Zum Beispiel zerlegt sich 13 in 8+4+1, also 2^3 + 2^2 + 2^0. Im Computer selbst, können nur binäre Zustände, wie Strom an oder aus etc., gespeichert werden. Daher wird kodiert, ob eine 2er-Potenz in der Zahl enthalten ist oder nicht. Hieraus ergibt sich eine Binärdarstellung der Zahl. Im Beispiel der 13 also 1101, wobei die 1en die enthaltenen 2er-Potenzen repräsentieren und die Zahl wird (wie bei Dezimalzahlen auch) von rechts nach links gelesen, wobei die rechte Stelle 2^0 repräsentiert. Somit entspricht die Binärdarstellung 1101 der Dezimalzahl 13, da 2^3 + 2^2 + 2^0 = 8 + 4 + 1 = 13. Dies erlaubt die Speicherung beliebiger Ganzzahlen, solange genügend 2er-Potenzen zur Verfügung stehen, welche durch die maximale Länge der Binärdarstellung begrenzt ist.

Text => Ganzzahl => Binär

Da jedem Buchstaben über die Zeichenkodierung eine Zahl zugewiesen wird, und Ganzzahlen in Binärzahlen umgewandelt werden können, kann auch ein Text in Binärzahlen umgewandelt und gespeichert werden.

Binärzahlen

Normalerweise werden Zahlen in Dezimaldarstellung verwendet, also mit den Ziffern 0-9. Zahlen werden von rechts nach links gelesen, wobei jede Stelle eine 10er-Potenz repräsentiert und die Ziffer der jeweiligen Stelle der Faktor der entsprechenden 10er-Potenz ist. Hier ein Beispiel zur Illustration:

312 = 300 + 10 + 2= 3*100 + 1*10 + 2*1 = 3*10^2 + 1*10^1 + 2*10^0 = 312

Binärzahlen hingegen verwenden nur die Ziffern 0 und 1, folgen ansonsten aber den gleichen Regeln wie Dezimalzahlen. Sie werden also auch von recht nach links gelesen, wobei jede Stelle eine 2er-Potenz repräsentiert und die Ziffer der jeweiligen Stelle der Faktor der entsprechenden 2er-Potenz ist. Hier ein Beispiel zur Illustration:

1101 = 1*2^3 + 1*2^2 + 0*2^1 + 1*2^0 = 8 + 4 + 0 + 1 = 13

Wie auch bei Dezimalzahlen werden führende 0en meistens weggelassen, da sie keinen Einfluss auf den Wert der Zahl haben. Zudem können auch Binärzahlen addiert, subtrahiert, multipliziert und dividiert werden.

Die Binärdarstellung von Zahlen ist in der Informatik von großer Bedeutung, da sie die Grundlage für die digitale Speicherung und Verarbeitung von Zahlen in Computern bildet.

Frage

Welche Dezimalzahl repräsentiert die Binärzahl 1010?

Hinweis

Die 2er-Potenzen sind

2^0 = 1
2^1 = 2
2^2 = 4
2^3 = 8

Antwort

Die Binärzahl 1011 entspricht der Dezimalzahl 10, da

1*2^3 + 0*2^2 + 1*2^1 + 0*2^0 = 8 + 0 + 2 + 0 = 10.

Bits und Bytes

Einzelne “01 Ziffern” einer Binärzahl werden bit genannt, was für “binary digit” steht.

Kolonnen von 8 Bits werden Byte genannt, was für “by eight” steht.

Ein Byte kann also 256 verschiedene Werte annehmen, da 2^8 = 256 verschiedene 01 Kombinationen mit 8 Stellen möglich sind.

Um Daten im Computer speichern, verwalten und abrufen zu können, ist es unumgänglich schon im Vorfeld zu wissen, wie viele Bits und Bytes für die jeweilige Information verwendt wurde. Andernfalls könnten zu wenige oder zuviele Bits gelesen werden, was zu einem falschen Ergebnis führen würde. Oder noch schlimmer: Datenoperationen überlappen, das heisst das Speichern einer Information überschreibt (ggf. auch nur teilweise) eine andere Information.

Um dies zu vermeiden und die Datenintegrität zu gewährleisten, wurden Standards festgelegt, welche die Anzahl der Bits und Bytes für verschiedene Datentypen festlegen. Hier ein paar Beispiele:

int (Integer): 4 Bytes (32 Bit)
long (Long Integer): 8 Bytes (64 Bit)
char (Character): 1 Byte (8 Bit)
float: 4 Bytes (32 Bit) - für Gleitkommazahlen
double: 8 Bytes (64 Bit) - für Gleitkommazahlen

Um negative Zahlen darstellen zu können, wird in der Regel das erste Bit als Vorzeichenbit verwendet. Dieses schränkt die Anzahl der darstellbaren Zahlen ein, da nur noch 7 Bit (bzw. 1 Bit weniger) für die eigentliche Zahlenrepräsentation zur Verfügung stehen.

Überlaufproblem

Da die Anzahl der Bits, die zur Speicherung einer Zahl zur Verfügung stehen, begrenzt ist, kann es zu einem Überlauf kommen. Ein Überlauf tritt auf, wenn das Ergebnis einer Berechnung mehr Stellen benötigt als die maximale Anzahl an Bits, die zur Speicherung zur Verfügung stehen. Hierbei werden die führenden Stellen einfach abgeschnitten, was zu einem falschen Ergebnis führt.

Beispiel unter der Annahme von 3 Bit Zahlendarstellung:

 7 + 3 = 111 + 011 = (1)010 (Dezimalzahl 10, aber 4 Bit nötig und nur 3 vorhanden > Überlauf)
                   = 010 (auf letzte 3 Bit reduzierte Speicherdarstellung)
                   = 2 (entsprechende Dezimalzahl, falsches Ergebnis)

Diese Problem ist heutzutage jedoch durch die Verwendung von 32 oder 64 Bit Zahlen in modernen Computern nur noch selten relevant.

Fließ- oder Gleitkommazahlen

Kommazahlen wie 0,0012 können auf verschiedene Arten geschrieben werden, z.B.

als Bruch 12/10000
als Dezimalzahl 0,0012
als wissenschaftliche Notation 1.2e-3 oder 1.2E-3

Die wissenschaftliche Notation kann auf zwei Arten interpretiert werden. Zum einen als mathematische Formel “1,2 * 10^-3 = 1,2 * 0,001 = 0,0012”. Alternativ kann auch herauslesen, dass das Komma in der Zahl 1.2 um 3 Stellen nach links verschoben werden muss, um die eigentliche Zahl 0,0012 zu erhalten.

Letztere Interpretation ist die, die in Computern verwendet und als Gleit- oder Fließkommazahl bezeichnet wird. Hierbei wird die Zahl in zwei Teile zerlegt: die Mantisse und den Exponenten. Die Mantisse enthält die eigentliche Zahl, also 1.5, 3.14159, oder 42.0, und der Exponent gibt (vereinfacht gesagt) an, um wie viele Stellen das Komma nach links oder rechts verschoben werden muss, um die eigentliche Zahl zu erhalten. Der Trick ist nun, dass sowohl Mantisse als auch Exponent als Ganzzahlen gespeichert werden können, für die wir schon eine Umrechnung in Binärzahlen kennen.

Dies funktioniert sehr gut für Zahlen, die sich als Potenzen von 10 darstellen lassen, wie 0,0012 = 1.2 * 10^-3. Für Zahlen, die sich nicht als Potenzen von 10 darstellen lassen, wie 1/3 = 0.3333333333333333…, kann es zu Rundungsfehlern kommen, da der Computer nur eine begrenzte Anzahl von Stellen für die Mantisse und den Exponenten speichern kann, da beide als Ganzzahl mit festen Bit-Anzahlen gespeichert werden. Dadurch ergeben sich Rundungsfehler, da nicht jede Zahl exakt als Gleitkommazahl darstellbar ist. Diese anfängs ggf. sehr kleinen Fehler können sich in nachfolgenden Rechenschritten stark bemerkbar machen, sodass man diese kennen sollte.

Für weitere Details empfehlen wir die Seite Gleitkommadarstellung / Gleitkommazahlen aus dem Elektronik Kompendium.

Rundungsfehler beim Rechnen mit Fließkommazahlen

Da der Computer nur eine begrenzte Anzahl von Stellen für die Mantisse und den Exponenten speichern kann, kann es zu Rundungsfehlern kommen, wenn mit Fließkommazahlen gerechnet wird. Hier ein Beispiel unter Verwendung der Programmiersprache R.

Frage

Überlegen sie, wo derartige Rundungsprobleme zu Problemen führen könnten, sodass in diesen Bereichen mit anderen Datentypen gearbeitet werden sollte.

Antwort

Ein Beispiel für ein Problem, bei dem Rundungsfehler zu Problemen führen können, ist die Berechnung von Zinsen.

Auch z.B. zur Berechnung von Marsmissionen oder anderen wissenschaftlichen Berechnungen, bei denen sehr genaue Ergebnisse erforderlich sind, werden andere Datentypen bzw. mathematische Tricks verwendet.

Sprachabhängige Zahlendarstellung

Ein häufiges Problem bei der Verarbeitung von Zahlen ist die sprachabhängige Darstellung von Zahlen. In Deutschland (und vielen Ländern Westeuropas) wird die Zahl 1000 als 1.000,00 geschrieben, während in den USA die gleiche Zahl als 1,000.00 geschrieben wird.

Das heisst das verwendete Trennzeichen für die “Nachkommastellen” und die Tausenderstellen ist unterschiedlich bzw. umgekehrt.

Solange Zahlen direkt in Binärform gespeichert und eingelesen werden, ist dies kein Problem, da nur die Darstellung der Zahl, nicht aber die Zahl selbst, von der eingestellten Benutzersprache abhängt.

Sobald jedoch Zahlen in Textform eingelesen oder ausgegeben werden, kann es zu Problemen kommen, wenn die Zahlen in einem anderen Format gespeichert sind, als das, in dem sie eingelesen werden sollen.

Wenn sie z.B. eine Datei mit der amerikanischen Notation 1,000 mit einer “deutschen” Software einlesen, wird die Zahl als 1 gelesen, da die deutsche Software das Komma als Dezimaltrennzeichen interpretiert.

Hinweis

Wenn sie fremde textbasierte Daten einlesen, sollten sie diese immer auf das verwendete Zahlenformat überprüfen, um sicherzustellen, dass die Zahlen korrekt eingelesen werden.

Alle Textdatenimportfunktionen in Programmiersprachen (wie Python oder R) und Datenverarbeitungssystemen (wie MS Excel) bieten die Möglichkeit, das zu importierende Zahlenformat anzugeben, um solche Probleme zu vermeiden.

Aber sie selbst müssen daran denken!

Zeit

Die Zeit wird in Computern als Anzahl von (Milli)Sekunden seit einem festgelegten Zeitpunkt gespeichert.

Dieser Zeitpunkt ist in der Regel der 1. Januar 1970 um 00:00:00 Uhr (UTC), auch als Unix-Zeit bekannt. Diese Darstellung hat den Vorteil, dass die Zeit als Ganzzahl gespeichert werden kann, was die Speicherung und Verarbeitung vereinfacht und Rundungsfehler vermeidet.

Jahr-2038-Problem

Ein Problem bei der Speicherung von Zeit als Ganzzahl ist das Jahr-2038-Problem. Lesen sie diesen Wikipedia-Artikel und erklären sie, warum es auftritt und welche Auswirkungen es haben könnte.

Antwort

Das Jahr-2038-Problem tritt auf, weil die Unix-Zeit als vorzeichenbehaftete 32-Bit-Ganzzahl gespeichert wird.

Das heisst nicht alle 32 Bit sind für die Zahl selbst reserviert, sondern das erste Bit gibt das Vorzeichen an. Da die Unix-Zeit den 1. Januar 1970 als Nullpunkt hat, wird die Zeit in Sekunden seit diesem Zeitpunkt gespeichert. Da eine 32-Bit-Ganzzahl nur 2^32 = 4.294.967.296 verschiedene Werte speichern kann, wird die Unix-Zeit am 19. Januar 2038 um 03:14:07 Uhr UTC den Wert 2.147.483.647 erreichen. Da die Unix-Zeit als vorzeichenbehaftete Ganzzahl gespeichert wird, wird der Wert am 19. Januar 2038 um 03:14:07 Uhr UTC auf -2.147.483.648 springen, was zu einem Überlauf führt. Dieser Überlauf führt dazu, dass die Zeit wieder bei -2.147.483.648 beginnt, was dem 13. Dezember 1901 um 20:45:52 Uhr UTC entspricht.

Farben

Farben werden in Computern z.B. als RGB-Werte gespeichert, also als Kombination von Rot-, Grün- und Blauanteilen des jeweiligen Lichtes. Jeder dieser Anteile wird als Zahl zwischen 0 und 255 gespeichert, wobei 0 für keinen und 255 für den maximalen Anteil des jeweiligen Farbtons steht. Das es sich um “Lichtfarben” handelt, wird somit die Farbe Weiß als (255, 255, 255) und die Farbe Schwarz als (0, 0, 0) gespeichert.

Da es sich um Ganzzahlen handelt, können diese auch in Binärform gespeichert werden, wobei die 8 Bit für jeden Farbton die Binärdarstellung der Zahl zwischen 0 und 255 darstellen. Aufgrund der diskreten Werte für die Farbanteile sind Farbverläufe nicht stufenlos sondern nur in diskreten Schritten möglich.

Neben RGB gibt es auch andere Farbmodelle, wie z.B. CMYK (Cyan, Magenta, Yellow, Key) für den Druck oder HSV (Hue, Saturation, Value) für die Farbdefinition. Auch hier werden die Farben als Zahlen gespeichert, wobei die Umrechnung zwischen den verschiedenen Farbmodellen durch mathematische Formeln erfolgt.

Farbkodierung liefert die Grundlage für Bild- und Videodaten, die selbst wieder in verschiedensten Formaten gespeichert werden können.

Frage

Wenn sie im Farbkasten Rot, Grün und Blau mischen, entsteht i.d.R. nicht weiß, sondern ein Braunton. Warum ist das so?

Antwort

Die Farben im Farbkasten sind Pigmente, die das Licht absorbieren und nur bestimmte Farben reflektieren. Wenn sie Rot, Grün und Blau mischen, absorbieren sie fast alles Licht, sodass die Mischung dunkel erscheint.

In folgendem Bild sehen sie, dass die unterschiedlichen Farbmodelle nur Teile des vom Menschen sichtbaren Farbraums abdecken.

Hinweis

Die Diskretisierung der Farbwerte kann zu Farbverlust führen, wenn die Farben in einem anderen Farbmodell gespeichert und wieder in RGB umgewandelt werden.

Daher sollte die Umwandlung zwischen den Farbmodellen nur dann erfolgen, wenn es unbedingt notwendig ist, am besten nach der Bildbearbeitung.

Für weiterführende Informationen rund um die Farbmodelle RGB und CMYK, ihrer Unterschiede und Umwandlung empfehlen wir folgende Seite.

Audio

Auch Audiodaten werden als Zahlen gespeichert, wobei die Amplitude des Schallsignals als Zahl gespeichert wird. Die Amplitude wird in der Regel als Zahl zwischen -1 und 1 gespeichert, wobei -1 für den minimalen und 1 für den maximalen Schalldruck steht. Da es sich um eine kontinuierliche Größe handelt, wird die Amplitude in der Regel als Gleitkommazahl gespeichert, um eine möglichst genaue Repräsentation des Schallsignals zu erhalten.

Zusammenfassung

Hauptpunkte

Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
- Text via Zeichenencodingstabellen
- Gleitkommazahlen z.B. durch Mantisse und Exponent
- Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
- Farben z.B. durch RGB-Werte
Ganzzahlen können in Binärform gespeichert und verarbeitet werden
- dabei in 2er-Potenzen zerlegt
- Interpretation analog zu Dezimalzahlen (rechts nach links, …)
- Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
- 8 Bit = 1 Byte
- Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
Probleme digitaler Informationsrepräsentation
- Überlaufproblem bei zu großen Zahlen
- Diskretisierung von kontinuierlichen Größen
  - Rundungsfehler bei Gleitkommazahlen
  - Verlust von Genauigkeit bei zu kleinen/großen Zahlen
- Kodierungsprobleme bei Textimport
  - Sprachabhängige Darstellung von Zahlen
  - Unterschiedliche Zeichenencodings

Einordnung im Datenlebenszyklus

Antwort

Das Wissen um die digitale Repräsentation von Informationen ist immer dann zentral, wenn Daten importiert oder exportiert werden, um sicherzustellen, dass die Daten korrekt übertragen und gespeichert werden.

Planung: Festlegung von Datenformaten und -strukturen
Erhebung: Korrekte Interpretation von Daten
Archivierung: Export von Daten in geeigneten Formaten
Nachnutzung: korrekter Datenimport und -export

Hinweis für den Dozenten

Sitzungsaufgabe zu “Digitale Daten”

Quelle - Wikimedia Commons - 07.08.2024↩︎
Quelle - aufkleberdrucker24.de - 12.09.2024↩︎

Content from Dateiformate

Zuletzt aktualisiert am 2025-05-08 | Diese Seite bearbeiten

Geschätzte Zeit: 40 Minuten

Übersicht

Fragen

Binär vs. Text?
Dateiformate?
Was für was?

Ziele

Verständnis dafür wie Daten gespeichert werden
Wissen um gängige Dateiformate zur Datenhaltung
Überblick welche Formate für welche Daten und Zwecke geeignet sind

Um Daten zu speichern oder weitergeben zu können, müssen sie in einer Datei abgelegt werden. Damit die Daten auch später wieder gelesen und verarbeitet werden können, muss dies in einer festgelegten Art und Weise geschehen, was durch das Dateiformat bestimmt wird. Damit man später noch weiss, welches Dateiformat verwendet wurde, wird dieses durch eine entsprechende Dateiendung (engl. file extension) hinterlegt. Die Dateiendung ist also lediglich ein Hinweis darauf, in welchem Format die Daten abgelegt sind, hat darüber hinaus aber keine weitere Bedeutung.

Binär vs. Text

Dateien können entweder in binärer oder Textform abgelegt werden. Dazu müssen wir uns erinnern, dass jedwede Information in einem Computer als Ganzzahl kodiert und diese in Binärzahlen, also einer Abfolge von Bits (0 und 1), repräsentiert und verwaltet werden.

Nun gibt es zwei Möglichkeiten, wie diese computerinterne Datenrepräsentation in einer Datei abgelegt werden kann.

Am kompaktesten und effizientesten ist es, die interne Binärdatendarstellung direkt als Binärdaten in einer Datei abzulegen, also als eine Abfolge von 0 und 1. Dieses wird als sogenannte binäre Datei bezeichnet. Dies hat den Vorteil, dass die Daten sehr schnell und effizient gelesen und geschrieben werden können, da keine Umwandlung notwendig ist. Allerdings sind binäre Dateien für Menschen nicht lesbar, da sie nur aus einer Abfolge von 0 und 1 bestehen, sodass keine Interpretation oder Inspektion der Daten möglich ist. Zudem sind binäre Dateien nicht oder nur bedingt portabel, da sie von der internen Datenrepräsentation des Computers und des verwendeten Anwendungsprogramms abhängen und daher nicht ohne weiteres auf anderen Systemen oder mit anderer Software gelesen werden können.

Daher werden binäre Dateiformate in der Regel nur für spezielle Anwendungen verwendet, bei denen es auf Geschwindigkeit und Effizienz ankommt, oder wenn die Daten nicht von Menschen gelesen werden müssen. Zudem sind binäre Dateiformate in der Regel spezialisiert und proprietär¹, d.h. sie sind nur für bestimmte Anwendungen oder Programme geeignet und können nicht ohne weiteres von anderen Programmen gelesen oder verarbeitet werden.

Aufgrund dessen sind binäre Dateiformate in der Regel nicht für den allgemeinen Datenaustausch oder die Langzeitarchivierung geeignet.

Stattdessen werden Daten, die ausgetauscht oder archiviert werden sollen, in der Regel in Textform abgelegt. Hierbei werden die internen Binärdaten in eine menschlich lesbare Form umgewandelt, z.B. in Buchstaben, Zahlen oder Sonderzeichen, und als Text in einer Datei abgelegt. Dieser muss nicht zwingend in einer menschenlesbaren Form sein, sondern kann auch in einer maschinenlesbaren Form abgelegt werden, z.B. als strukturierte Daten oder in einer speziellen Syntax.

Grundlegend ist aufgrund der Textform jedoch gesichert, dass die Daten in einer Form abgelegt sind, die unabhängig von der computerinternen Datenrepräsentation ist und daher portabel und unabhängig von der verwendeten Software oder dem Betriebssystem ist.

Ist das binär oder textbasiert?

Um zu überprüfen, ob eine Datei binär oder textbasiert ist, können Sie die Datei einfach mit einem Texteditor öffnen. Dies ist mit jeder Datei möglich, unabhhängig von der Dateiendung oder dem Dateiformat!

Wenn die Datei text-basiert ist, können Sie den Inhalt lesen und bearbeiten. Falls nicht, wird der Inhalt der Datei als unleserlicher Text oder als Zeichenfolge von Sonderzeichen angezeigt, wie in folgendem Beispiel.

Sie sind dran ..

Öffnen Sie in einem Texteditor ihrer Wahl eine MS Excel Datei und eine PDF Datei.

Was sehen Sie? Sind die Dateiformate binär oder textbasiert?

Antwort

Die Excel-Datei wird als unleserlicher Text oder als Zeichenfolge von Sonderzeichen angezeigt, da sie im binären XLSX-Format gespeichert ist. Letzteres ist eigentlich ein komprimiertes ZIP-Archiv, das verschiedene Dateien und Ordner enthält, die die Tabellenkalkulation und die Daten enthalten.

Die PDF-Datei wird je nach Inhalt als Mix aus lesbarem Text und Sonderzeichen angezeigt. Das PDF-Format ist ein Hybridformat, in dem bestimmte Inhalte (wie Bilder) in einem binären Format gespeichert sind, während der Text z.T. in einer menschenlesbaren Form abgelegt ist.

Doch dazu später mehr…

Standard vs. Spezialformat

Die Wahl des Dateiformats hängt stark von der Art der Daten und ihrer Verwendung ab. Für den allgemeinen Datenaustausch und die Langzeitarchivierung sind Textformate in der Regel besser geeignet, da sie portabel, unabhhängig und zukunftssicher sind. Für den internen Gebrauch oder spezielle Anwendungen können jedoch auch binäre Formate sinnvoll sein, da sie schneller und effizienter sind und spezielle Funktionen oder Eigenschaften bieten können.

Daher sollten Rohdaten und Metadaten in einem Standardformat abgelegt werden, das von verschiedenen Programmen und Systemen gelesen und verarbeitet werden kann. Zudem sollten am Ende des Forschungsprozesses zur Publikation die finalen, verarbeiteten Daten in Standardformaten abgelegt werden, um die Nachnutzung und Langzeitarchivierung zu erleichtern.

Während des Forschungsprozesses können jedoch auch spezielle oder proprietäre Formate verwendet werden, um die volle Leistungsfähigkeit und Funktionalität der verwendeten Software auszuschöpfen.

Im Folgenden werden wir einige der gängigsten Dateiformate für den Datenaustausch und die Langzeitarchivierung vorstellen und ihre Verwendungszwecke und Eigenschaften erläutern.

Nur Text

Die einfachste Möglichkeit beliebige Information zu speichern ist in Form von unformatierten Textdateien. Diese enthalten nur eine texttuelle Repräsentation der Information in Form von Buchstaben, Zahlen und Sonderzeichen, und haben darüber hinaus keine spezielle Struktur oder Formatierung.

Derartige Dateien werden i.d.R. mit der Dateiendung .txt versehen und können mit jedem Texteditor geöffnet und bearbeitet werden. Hierbei ist zu beachten, das MS Word oder andere Textverarbeitungsprogramme nicht als Texteditor geeignet sind, da sie zusätzliche Formatierungen und Metadaten in die Datei schreiben, die den reinen Textinhalt verfälschen.

Geeignete Texteditoren sind z.B.

Notepad++ (Windows),
TextEdit (Mac),
gedit (Linux) oder
Microsoft Windows Editor.

Wenn die Textdatei in einer strukturierten Form vorliegt, d.h. wenn die Information in Zeilen und Spalten organisiert oder durch spezielle Schlüsselwörter oder Trennzeichen strukturiert ist, dann spricht man von einem textbasiertem Dateiformat.

Formattierter Text

Markdown

Dateiendungen: .md, .markdown

Markdown ist eine einfache Auszeichnungssprache für Textdateien. Das heisst, einzelne Textabschnitte können mit speziellen Zeichen oder Schlagworten versehen werden, um ihre Formattierung zu bestimmen. Die Formatierung selbst geschieht in einem nachfolgenden Verarbeitungsschritt, bei dem der formatierte Text in einem geeigneten Format, z.B. HTML, PDF, .., abgespeichert wird.

Studieren sie folgende Webseite, in der Markdown und seine Anwendungen erklär werden:

Markdown Guide - Get Started (Englisch)
- oder in Deutsch via google.translate (mit einigen lustigen Übersetzungsartefakten …)

Da die Formatierung von Markdown immer in einem separaten Schritt erfolgt, ist es sinnvoll einen Editor zu verwenden, der die Formatierung in Echtzeit anzeigt. Im Rahmen des Kurses (und ggf. auch darüber hinaus) empfehlen wir daher den Onlineeditor dillinger.io, welcher ohne Registrierung oder Installation genutzt werden kann.

Aufgabe

Verwenden sie den Onlineeditor dillinger.io um ein einfaches Markdown-Dokument zu erstellen.

Versuchen sie darin einige der kleinen “Best Practice” Tipps, welche auf der Webseite Markdown Guide - Basic Syntax vorgestellt werden.

Referenz

Markdown wird sehr häufig für Dokumentationen, Readme-Dateien und auch für einfache Webseiten verwendet. (Auch diese Webseite wurde basierend auf Markdown erzeugt!)

In diesem Kurs werden wir daher ab sofort Markdown für (fast) alle Dokumentationen verwenden, um dies zu üben.

Sie können daher dillinger.io schon direkt zu ihren Lesezeichen im Browser hinzufügen.

`.md` Dateiendung mit Texteditor verknüpfen

Dateiendungen dienen vorrangig dazu, dass das Betriebsystem automatisch erkennt, mit welchem Programm eine ausgewählte Datei geöffnet werden soll. Für Markdowndateien mit der Dateiendung .md ist in den meisten Betriebssystemen keine solche Assoziation mit einem “Standardprogramm” direkt vorhanden. Daher sollte diese eingerichtet werden, wenn man häufiger, wie in diesem Kurs, mit Markdown Dateien arbeiten möchte.

Aufgabe:

Exportieren sie ihre Markdown-Spielerei aus der letzten Aufgabe aus dillinger.io heraus
- dazu oben rechts “Export as” > “Markdown” auswählen
Speichern sie die Datei auf ihrem Computer an einem Ort ihrer Wahl (den sie wiederfinden…)
Setzen sie als Standardprogramm zum Öffnen von Markdown-Dateien ihren Texteditor
- Anleitung für Windows oder für MacOS
Versuchen sie nun die heruntergeladene Datei zu öffnen (z.B. via Doppelklick)
- Ziel ist es, das nun ihr installierter Texteditor die Markdown-Datei anzeigt

HTML

Dateiendungen: .html, .htm

Ähnlich wie Markdown ist auch HTML (HyperText Markup Language) eine Auszeichnungssprache, die zur Strukturierung von Texten in Webseiten verwendet wird. Im Gegensatz zu Markdown ist HTML jedoch deutlich komplexer und ermöglicht eine detaillierte Strukturierung und Formatierung von Texten und zusätzlichen Inhalten (z.B. Bilder, Videos, …). HTML-Dateien können mit jedem Texteditor geöffnet und bearbeitet werden, jedoch ist zur Anzeige der Formatierung ein Webbrowser erforderlich. Das heißt, analog wie bei Markdown, muss der HTML-Code erst durch ein Programm (i.d.R. dem Browser) interpretiert und dargestellt werden.

Webseiten bestehen aus einer Kombination von HTML, CSS und Javascript, wobei

HTML die Struktur und den Inhalt der Seite definiert,
CSS das Aussehen und die Formatierung steuert und
Javascript die Interaktivität und Funktionalität hinzufügt.

Webseiten werden häufig zur Präsentation, Publikation oder Dokumentation von Forschung und deren Daten verwendet.

Aufgrund der zugrundeliegenden Struktur von HTML-Dateien, kann man teilweise auch direkt aus Webseiten die präsentierten Daten extrahieren. Dies nennt sich Web Scraping. Allerdings ist eine zusätzliche Bereitstellung der Daten in einem datenfokussierten Dateiformat (z.B. CSV, JSON) meist sinnvoller und empfohlen.

PDF

Das Portable Document Format (PDF) ist ein Dateiformat, das entwickelt wurde, um Dokumente unabḧängig von Anwendungen, Betriebssystemen oder Hardwareplattformen anzuzeigen und auszudrucken. Damit ist es möglich, Dokumente so zu speichern, dass sie auf jedem Gerät gleich aussehen, was bei Markdown und HTML nicht der Fall ist.

PDF-Dateien können Text, Bilder, Links, Formulare, Audio- und Videodateien enthalten und sind daher ein weit verbreitetes Format für die Präsentation und den Austausch von Dokumenten. Auch ist es möglich, die Bearbeitung, Druckbarkeit, … von PDF-Dateien zu beschränken, um die Integrität und Authentizität von Dokumenten zu gewährleisten. Allerdings sind diese Sicherheitsfeature nur bedingt wirksam und können durchaus umgangen werden.

PDF Dateien sollten für “Endprodukte” verwendet werden, die nicht mehr verändert werden sollen, z.B. für Berichte, Präsentationen, Publikationen, etc. Sie sind wenig geeignet für die Zusammenarbeit und Weiterverarbeitung von Daten, da sie nicht so einfach zu bearbeiten sind wie Textdateien oder textbasierte Dateiformate.

Grundlegend kann (fast) jedes PDF-Dokument mit einem entsprechenden Editor (z.B. Adobe Acrobat oder verschiedenen Onlinetools) bearbeitet werden. Allerdings erfolgt die Bearbeitung in der Regel nicht im Quellcode, sondern in einer grafischen Benutzeroberfläche, da das PDF-Format einen Mix aus Text- und Binärinformationen enthalten kann.

PDF editieren

Nehmen sie ein beliebiges PDF-Dokument und versuchen sie es mit einem PDF-Editor zu bearbeiten. Hierfür finden sich auch zahlreiche kostenlose Online-Tools.

DOCX, ODT, …

Um formatierte Texte zu schreiben und zu speichern werden häufig Textverarbeitungsprogramme wie Microsoft Word, Google Docs oder LibreOffice Writer verwendet.

Häufige Dateiendungen für derartige Textverarbeitungsdateien sind:

.docx - Microsoft Word (von Microsoft entwickelter Standard)
.odt - OpenDocument Text (quelloffener freier Standard)

Diese Dateiformate enthalten neben dem reinen Text auch Informationen zur Formatierung, Schriftart, Farben, Autor, … und können daher nicht direkt in einem Texteditor geöffnet und bearbeitet werden. Allerdings können sie in Textdateien (z.B. Markdown) oder PDF-Dateien konvertiert werden, um sie einfacher zu teilen oder zu archivieren.

Da diese Dateiformate proprietär sind, kann es zu Kompatibilitätsproblemen kommen, wenn sie von verschiedenen Programmen oder Versionen geöffnet werden. Das heißt, dass die Formatierung oder der Inhalt der Datei möglicherweise nicht korrekt angezeigt wird, wenn sie in einem anderen Programm geöffnet wird.

Daher wird empfohlen, für Dokumentationen und Texte, die geteilt oder archiviert werden sollen, stattdessen reine Textdateien, textbasierte Dateiformate oder PDF-Dateien zu verwenden.

Dokumentation in .md oder .docx?

Warum ist es besser, Dokumentationen und beschreibende Texte in Markdown-Dateien statt in Word-Dokumenten zu speichern?

Mögliche Punkte

Plattformunabhängigkeit: Markdown-Dateien können auf jedem Betriebssystem und mit jedem Texteditor geöffnet und bearbeitet werden, während Word-Dokumente ein entsprechendes Textverarbeitungsprogramm benötigen.
Versionierung: Markdown-Dateien können leichter in einem Versionskontrollsystem (z.B. Git) gespeichert und lokale Änderungen dokumentiert werden.
Flexibilität: Markdown-Dateien können einfacher (automatisiert) in beliebige Formate (z.B. HTML, PDF) oder auch Präsentationsformen (Webseite, Buch, …) konvertiert werden.

Programmierskripte

Neben reiner Textinformation werden auch Programmierskripte in Textdateien abgelegt. Diese enthalten Anweisungen und Befehle, die von einem Computer ausgeführt werden können, um bestimmte Aufgaben zu erledigen. Die Skripte werden in einer Programmiersprache geschrieben, die speziell für die Erstellung von Programmen und Skripten entwickelt wurde. Zur Dokumentation und Weitergabe von (Forschungs)Daten ist es daher häufig wichtig, auch die verwendeten Programmierskripte zu speichern und zu teilen. Daher sollten sie gängige Programmiersprachen und -skripte kennen, um derartige Dateien identifizieren zu können.

Einige wichtige Dateiendungen für Programmierskripte sind:

.py - Python
.R - R
.js - Javascript
.sh - Shell - Linux/MacOS Kommandozeile
.bat - Batchskripte - MS DOS/Windows Kommandozeile
.ps1 - Powershellskripte - erweiterte MS Windows Kommandozeile

Markdown wird auch sehr häufig in Verbindung mit Programmiersprachen verwendet, um Codebeispiele und Dokumentationen zu erstellen. Zudem wurden “Hybridformate” entwickelt, die sowohl Markdown für Beschreibungen als auch direkt auszuführende Programmieranweisungen enthalten. Beispiele hierfür sind:

Jupyter Notebooks (.ipynb),
R Markdown (.Rmd) oder R Notebooks (.Rnb).

Diese Formate ermöglichen es, Code und Dokumentation bzw. Interpretation in einem Dokument zu kombinieren und interaktiv auszuführen, was sie besonders für die Datenanalyse und -visualisierung geeignet macht. Zudem können sie in verschiedene Formate exportiert werden, z.B. als HTML, PDF oder Präsentation, was sie für die Veröffentlichung und den Austausch von Ergebnissen nützlich macht. Auch hier gilt, dass ggf. nicht nur das erzeugte finale Dokument, sondern auch das ursprüngliche Notebook gespeichert und geteilt werden sollte, um die Nachvollziehbarkeit und Reproduzierbarkeit der Analyse zu gewährleisten.

Tabellen

Dateiendungen:

textbasierte Formate, z.B.
- .csv - Comma Separated Values
- .tsv - Tab Separated Values
binäre Formate, z.B.
- .xls, .xlsx - MS Excel
- .ods - OpenDocument Spreadsheet

Bei der Datenerhebung, -verarbeitung oder zur -archivierung werden Daten häufig in tabellarischer Form gespeichert. Hierbei werden die Daten in Zeilen und Spalten organisiert, wobei in einzelnen Spalten nur Informationen der gleichen Form (Zahl, Text, ..) gelistet werden.

Tabellen können in textbasierten Formaten (z.B. CSV) oder binären Formaten (z.B. XSLX) digital gespeichert werden. Textbasierte Formate sind plattformunabhängig und können in jedem Texteditor geöffnet und bearbeitet werden, während binäre Formate spezifische Programme erfordern und ggf. zu Kompatibilitätsproblemen führen können. Zudem werden zur Verarbeitung von binären Formaten in Programmiersprachen häufig zusätzliche Funktionalitäten (Pakete) benötigt, was die Verwendung und Nachnutzung erschweren kann.

Eine der häufigsten Formen der tabellarischen Daten ist das CSV-Format (Comma Separated Values), bei dem die Daten durch Kommas getrennt in einer Textdatei gespeichert werden. Eine mögliche CSV-Repräsentation der obigen Tabelle ist wie folgt.

Nr,Tag,Wo
1,Mo,Zoom
8,Di,?

Problematisch …

Welche Probleme sehen sie mit der obigen CSV-Kodierung der Tabelle? Was kann problematisch werden?

Mögliche Probleme

Spaltentrennzeichen: Da es sich um einen deutschsprachigen Datensatz mit Zahlen handelt, kann es zu Problemen mit dem Spaltentrennzeichen “,” kommen, falls Dezimalzahlen z.B. “2,34” im Datensatz auftreten. In diesem Fall wäre es nicht eindeutig, ob das Komma ein Spalten- oder Dezimaltrennzeichen ist. Das gleiche Problem ergibt sich, wenn komplette Sätze (die potentiell Kommas enthalten) gespeichert werden. Daher hat sich im westeuropäischen Raum das Semikolon “;” als Trennzeichen etabliert (welches auch als CSV2-Format bezeichnet wird). Alternativ kann auch das TSV-Format verwendet werden, das Tabulatoren als Spaltentrenner verwendet.
Fehlende Daten: Hier wurden fehlende Daten mit “?” vermerkt. Während dies für menschliche Augen ein hilfreicher Hinweis sein kann, ist er für die automatische Datenverarbeitung schlecht geeignet. Wenn einzelne Daten fehlen, sollte in der jeweiligen Spalte einfach keine Information angegeben werden. In diesem Falle also besser “8,Di,”.
Textkodierung: Da der Datensatz Text enthält, können beim Import Probleme mit der Zeichenkodierung auftreten. Aktuell wird empfohlen UTF-8 zu verwenden.

Kommentare und Metadaten

CSV sieht i.d.R. keine Kommentare, Metadaten, etc. vor. Daher sollten diese Informationen in einer separaten Datei oder in einem anderen Format gespeichert werden. Falls unbedingt nötig, werden Kommentare in CSV-Dateien i.d.R. in den ersten Zeilen gelistet und durch spezielle Zeichen (z.B. #) am Anfang der Kommentarzeilen markiert. Damit ist es möglich, diese beim Import zu überspringen oder zu ignorieren

Hierarchische Daten

Dateiendungen:

.json - JavaScript Object Notation
.xml - Extensible Markup Language
.yaml - YAML Ain’t Markup Language

Eine Alternative zur tabellarischen Datenspeicherung bieten hierarchische Datenformate, die Informationen in einer verschachtelten Struktur speichern. Hierbei können Daten in beliebiger Tiefe und Komplexität organisiert werden, was sie besonders für die Speicherung von Metadaten oder strukturierten Daten geeignet macht. Zudem liefert diese Form der Datenrepräsentation direkt die Möglichkeit, Zusammenhänge und Beziehungen zwischen den Daten zu speichern.

JSON

JSON (JavaScript Object Notation) ist, wie der Name schon sagt, ein auf der Programmiersprache JavaScript basierendes Format, das Daten in einem hierarchischen Format speichert. Einzelne Datensätze werden wie folgt repräsentiert:

JSON

{
  "Nr": 1,
  "Tag": "Mo",
  "Ort": "Zoom"
}

Hierbei werden die Daten in Doppelpunkt-getrennten Schlüssel-Wert-Paaren gespeichert, wobei die Werte beliebige Datentypen annehmen können (Zahlen, Text, Listen, …). Datensätze selbst werden durch geschweifte Klammern {} begrenzt, wobei die einzelnen Schlüssel-Wert-Paare durch Kommas getrennt werden. Diese Struktur kann beliebig tief verschachtelt werden, um komplexe Datenstrukturen abzubilden. In unserem Beispiel können wir die Informationen für mehrere Treffen wie folgt speichern:

JSON

{
  "Termine" : [
    {
      "Nr": 1,
      "Tag": "Mo",
      "Ort": "Zoom"
    },
    {
      "Nr": 8,
      "Tag": "Di",
      "Ort": null
    }
  ]
}

Hierbei werden die einzelnen Treffen in einer Liste Termine mit eckigen Klammern [] zusammengefaßt, welche wiederum die einzelnen Treffen als JSON-Objekte enthält. Wichtig: die Liste selbst ist auch wieder ein JSON-Objekt, das in geschweiften Klammern {} eingebettet wird (die “äußeren” Klammern umfassen den Datensatz). Einrückung, Zeilenumbrüche und Leerzeichen sind rein zur besseren Lesbarkeit erlaubt, können aber weggelassen werden. Letzteres ist insbesondere bei großen Datenmengen sinnvoll, um die Dateigröße zu reduzieren.

Beachten sie, dass es hier (im Gegensatz zu CSV) keine Probleme mit dem Komma als Trennzeichen gibt, da die Daten in einem strukturierten Format gespeichert sind. Zudem werden fehlende Daten durch null repräsentiert, was der eindeutigen Information über fehlende Daten in JavaScript Notation entspricht. Allerdings müssen, wie in JavaScript, Textinformationen (sowie “Datennamen”) immer in Anführungszeichen gesetzt werden, was die Lesbarkeit im Vergleich zu CSV etwas erschwert.

JSON ist ein weit verbreitetes Format, das in vielen Programmiersprachen unterstützt wird und sich gut für den Datenaustausch zwischen verschiedenen Systemen eignet. Allerdings eignet es sich nur bedingt für die manuelle Bearbeitung durch Menschen, da es aufgrund der kompakten Strukturierung und der Anführungszeichen schnell unübersichtlich werden kann. Daher wird es i.d.R. automatisiert erzeugt oder in Kombination mit einem Editor oder einer speziellen Software verwendet, die die Strukturierung und Lesbarkeit der Daten verbessert, was wir im Folgenden ausprobieren werden.

JSON-Beispiel

Öffnen sie den JSON-Onlineeditor von tutorialspoint
Kopieren sie den JSON-Code vom obigen Beispiel in das Editorfenster (links)
Studieren sie die angezeigte Baumhierarchie des Datensatzes (rechts)
- Sie können die einzelnen Knoten aufklappen und schließen, um die Hierarchie zu erkunden

Welche Rückschlüsse können sie aus den GRAUEN Infos an den einzelnen Knoten ziehen?

Antwort

in geschweiften Klammern werden die Anzahl der Schlüssel-Wert-Paare angezeigt, also die Anzahl der Einzelinformationen im entsprechenden (Teil)Datensatz
in eckigen Klammern wird die Anzahl der Elemente in einer Liste angezeigt

XML

Die Extensible Markup Language (XML) ist ein weiteres hierarchisches Datenformat, das für die Repräsentation von strukturieren, hierarchischen Daten geeignet ist. Ähnlich wie in HTML werden Informationen in sogenannten Tags gespeichert, wobei in XML die Schlagwörter frei festgelegt werden können. So könnten wir unseren JSON Datensatz wie folgt in XML ablegen.

XML

<?xml version="1.0"?>
<termine>
  <termin>
    <Nr>1</Nr>
    <Tag>Mo</Tag>
    <Ort>Zoom</Ort>
  </termin>
  <termin>
    <Nr>8</Nr>
    <Tag>Di</Tag>
    <Ort></Ort>
  </termin>
</termine>

Im Gegensatz zu JSON gibt es somit keine “unbenannten” Daten, da alle Information in Tags eingeschlossen werden muss, die durch spitze Klammern <> gekennzeichnet sind. Die führende Zeile <?xml version="1.0"?> gibt die Version des XML-Formats an, die in diesem Fall 1.0 ist, und zeigt beispielhaft, wie in XML Metadaten etc. eingebettet werden können.

Da jede Information auch wieder mit einem schließenden Tag beendet werden muss, sind XML Kodierungen meist umfangreicher als JSON, was die Lesbarkeit und die Dateigröße beeinflußt. Allerdings erlaubt XML auch die Definition von Attributen, die zusätzliche Informationen zu den Tags enthalten können. Dies kann insbesondere bei der Speicherung von Metadaten oder anderen Informationen hilfreich sein, die nicht direkt in den Tags gespeichert werden sollen.

Vordefinierte Schemata wie DTD (Document Type Definition) oder XSD (XML Schema Definition) können verwendet werden, um die Struktur der XML-Datei festzulegen, die Validierung zu erleichtern und einheitliche Standards zum Datenaustausch zu ermöglichen. Ein Beispiel hierfür ist der TEI (Text Encoding Initiative) Standard für Textrepräsentation.

Versuchs mal …

Es gibt auch einen XML-Onlineeditor von tutorialspoint. Öffnen sie diesen und kopieren sie das obige XML in die linke Editormaske.

Was unterscheidet das XML Rendering (rechts) vom JSON Rendering aus der letzten Aufgabe oben?

Antwort

es gibt keine explizite Unterscheidung in Datensätze und Listen
alle Informationen werden gleich (als Text) behandelt und angezeigt (bei JSON gab es unterschiedliche Darstellungen)
Textinformation (zwischen einschließenden Tags) wird nicht “gequotet”, d.h. es sind keine Anführungszeichen nötig! Ausnahme sind “Attribute” der Tags, wie die Versionsinformation im Beispiel. Tauschen sie mal <termine> durch <termine info="meine Liste"> aus…

Auch für XML gilt, dass dieses i.d.R. automatisiert als Datenformat erzeugt wird und nur in seltenen Fällen komplett manuell erfaßt wird. Allerdings ist es, im Vergleich zu JSON, einfacher menschenlesbar, da alle Elemente eindeutig mit Tags benannt und begrenzt sind.

Bilder und Grafiken

Neben Text- und Tabellendaten sind auch Bilder und Grafiken wichtige Bestandteile von Forschungsdaten. Hierbei wird grundlegend in zwei Arten von Bildinformationen unterschieden, die sich in ihrer Darstellung und Verwendung wesentlich unterscheiden.

Rastergrafiken bestehen aus einer “Tabelle” von Pixeln, d.h. Farbinformationen pro Bildposition, und sind insbesondere für Fotos und Bilder geeignet, die eher eine diffuse Farbgebung oder Detailgestaltung haben.
Vektorgrafiken hingegen sind eher “Malanleitungen”, die beschreiben wo welche Bildelemente mit welcher Farbe, Form, etc. gezeichnet werden soll. Dies ist insbesondere für technische Zeichnungen, Diagramme und Schaubilder geeignet, da diese Form der Bildkodierung verlustfrei skaliert (“gezoomt”) werden kann.

Rastergrafiken

Dateiendungen:

.jpg oder .jpeg : JPEG (Joint Photographic Experts Group) - weit verbreitetes Format für Fotos und Bilder. ACHTUNG: verlustbehaftet, d.h. Abwägung zwischen Datenverlust und Dateigröße!
.png : Portable Network Graphics - verlustfreies Format für Bilder, Diagramme und Grafiken
.tif oder .tiff : Tagged Image File Format - verlustfreies Format für hochauflösende Bilder und Scans (vor allem für hochqualitativen Druck)
.gif : Graphics Interchange Format - verlustfreies Format für Animationen und einfache Grafiken

Der zentralen Unterschied zwischen diesen Formaten ist die Art der Kompression und die damit verbundene Qualität der Bilder. Während JPEG-Dateien eine verlustbehaftete Kompression verwenden, die die Dateigröße reduziert, aber auch die Bildqualität beeinträchtigen kann, sind PNG- und TIFF-Dateien verlustfrei und eignen sich daher besser für die Speicherung von Bildern, bei denen die Qualität erhalten bleiben soll.

Daher sollte die Wahl des Dateiformats von der Art des Bildes und der beabsichtigten Verwendung abhängen. Für Fotos und Bilder, die auf Webseiten oder in Präsentationen verwendet werden, ist JPEG oft ausreichend, während PNG oder TIFF für hochwertige Drucke oder Grafiken bevorzugt werden sollten.

Punktdichte und Farbtiefe in Rastergrafiken

Vektorgrafiken

Dateiendungen:

.svg : Scalable Vector Graphics - XML Format für Grafiken und Diagramme (z.B. für Webseiten)
.pdf : Portable Document Format - für Dokumente, kann aber auch Vektorgrafiken enthalten (z.B. für wissenschaftliche Publikationen)
.eps : Encapsulated PostScript - für Druckgrafiken und technische Zeichnungen (eher veraltet)
.ai : Adobe Illustrator (proprietär)
.cdr : Corel Draw (proprietär)

Im Gegensatz zu Rastergrafiken wird in Vektorgrafiken nicht das finale Bild gespeichert, sondern eine Anleitung, wie das Bild zu zeichnen ist. Daher eigenen sich Vektorgrafiken besonders für technische Zeichnungen, Diagramme und Schaubilder, die klar definierte Formen und Linien haben und i.d.R. einheitliche Farbflächen verwenden. Jedem Bildelement (z.B. Linie, Kreis, Text) wird eine mathematische Formel zugewiesen, die die Position, Form des Elements beschreibt. Zudem kann für jedes einzelne Element die Farbe, Linienstärke, Füllung, etc. definiert werden, was eine hohe Flexibilität bei der Darstellung ermöglicht.

Da Vektorgrafiken nicht aus Pixeln bestehen, sondern aus mathematischen Formeln, können sie verlustfrei skaliert werden, d.h. sie können ohne Qualitätsverlust vergrößert oder verkleinert werden. Auch ermöglichen Vektorgrafiken häufig eine bessere Komprimierung, da die mathematischen Formeln weniger Speicherplatz benötigen als die Pixelinformationen von Rastergrafiken, sodass die Dateigröße von (einfachen) Vektorgrafiken i.d.R. kleiner ist. Auch ist es möglich, nur Ausschnitte von Vektorgrafiken zu verwenden, ohne dass die Qualität leidet.

Da Vektorgrafiken in der Regel in speziellen Programmen erstellt werden, sind die Dateiformate häufig proprietär und können nicht ohne weiteres von anderen Programmen geöffnet oder bearbeitet werden. Eine Ausnahme bildet das SVG-Format, das auf XML basiert und daher auch von anderen Programmen gelesen und bearbeitet werden kann. Das SVG-Format wurde speziell für das Web entwickelt und ist daher besonders für Webseiten geeignet. Hierbei können Vektorgrafiken direkt in den HTML-Code eingebunden werden und sind daher besonders für interaktive Grafiken und Diagramme geeignet, die mit Hilfe von JavaScript dynamisch verändert werden können (inhaltlich wie auch optisch). Aufgrund seiner Verbreitung und Flexibilität ist das SVG-Format sehr gut für den Datenaustausch und die Archivierung von Grafiken geeignet.

Für die Publikation von wissenschaftlichen Ergebnissen ist das PDF-Format besonders geeignet, da es sowohl Text als auch Vektorgrafiken und Rasterbilder enthalten kann, auf nahezu jedem Gerät geöffnet werden kann und für die einheitliche Darstellung auf allen Geräten entwickelt wurde. Zudem können PDF-Dateien mit Metadaten versehen werden, die Informationen über den Autor, das Erstellungsdatum, die Lizenz, etc. enthalten. Dies ist besonders wichtig für die Nachvollziehbarkeit und Zitierbarkeit von wissenschaftlichen Ergebnissen.

Schwierigkeiten mit digitalen Bildern

Rastergrafiken haben den Nachteil, dass sie bei der Vergrößerung an Qualität verlieren, da die Pixelinformationen interpoliert werden müssen, d.h. die Software muss die fehlenden Pixel “erraten” oder Zwischenwerte berechnen. Dies führt zu Unschärfe und Verzerrungen, insbesondere bei starken Vergrößerungen. Auch die Farbtiefe und Auflösung der Bilder beeinflussen die Qualität und Dateigröße, sodass eine Abwägung zwischen Qualität und Speicherplatzbedarf getroffen werden muss.

Vektorgrafiken sind hingegen nicht für alle Arten von Bildern geeignet, insbesondere für Fotos und Bilder mit komplexen Farbverläufen und Texturen. Hier sind Rastergrafiken besser geeignet, da sie die feinen Details und Farbnuancen besser darstellen können. Zudem werden Vektorgrafiken bei der Konvertierung in Rastergrafiken (z.B. für den Druck) in der Regel gerastert, d.h. in Pixel umgewandelt, was zu Qualitätsverlusten führen kann. Bei sehr komplexen Vektorgrafiken mit sehr vielen (überlappenden) Elementen kann die Dateigröße auch größer sein als bei vergleichbaren Rastergrafiken, da die mathematischen Formeln und die Vielzahl der Einzelelemente mehr Speicherplatz benötigen.

Zusammenfassung

Hauptpunkte

Standardisierte Dateiformate erleichtern den Datenaustausch und die Archivierung von Daten.
- für Rohdaten und Publikation
- für Austausch mit Kollegen und der Öffentlichkeit
- i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
Proprietäre Dateiformate für internen Gebrauch und spezielle Anwendungen/Software
- ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
- können (für Austausch) in offene Formate konvertiert werden
Wahl des Dateiformats u.a. abhängig von
- Art der Daten (z.B. Text, Bild, Video, Audio, ..)
- Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
- Kompatibilität mit Software und Plattformen
Dateiendungen
- sind nur ein Teil des Namens ohne weitere Auswirkungen
- ermöglichen dem Betriebssystem das richtige Programm zum Öffnen auszuwählen
  - Programmassoziation kann geändert werden!

Einordnung im Datenlebenszyklus

Antwort

Die richtige Wahl des Dateiformats ist in allen Phasen des Datenlebenszyklus wichtig:

Planung: Auswahl geeigneter Formate für die Datenerhebung, -analyse und -publikation
Erhebung: Speicherung und Dokumentation der Daten
Analyse: Verwendung von geeigneten Formaten für die Analyse (Skripte) und von Zwischenergebnissen (ggf. proprietäre Formate)
Publikation: Bereitstellung der Daten in geeigneten Formaten
Archivierung: Langzeitarchivierung in geeigneten Standardformaten
Nachnutzung: Dokumentation; Auswahl von Formaten, die die eigene Nachnutzung erleichtern

Hinweis für den Dozenten

Sitzungsaufgabe zu “Datenextraktion aus Bildern”

Proprietär bedeutet, dass das Dateiformat von einem bestimmten Hersteller oder für dessen Programm entwickelt wurde und daher nur von diesem Programm oder von Programmen, die das Format kennen und unterstützen, gelesen oder verarbeitet werden können.↩︎
Quelle - B.K. Nielsen - Freron - 07.08.2024↩︎
Quelle - Chris Spann - Lumar - 07.08.2024↩︎
Quelle - F. Graf - wikipedia.de - 09.08.2024↩︎
Quelle - selfhtml.org - 12.09.2024↩︎

Content from Netzwerke

Zuletzt aktualisiert am 2025-01-13 | Diese Seite bearbeiten

Geschätzte Zeit: 40 Minuten

Übersicht

Fragen

Router?
Ports?
Firewall?
Logging?

Ziele

Wie funktioniert das Internet?
Wie finden die Daten ihr Ziel?
Wie kann ich mich schützen?
Wer sieht was ich im Internet mache?

Die Verwendung des Internets ist heute allgegenwärtig. Doch wie funktioniert das Internet eigentlich? Wie finden die Daten ihren Weg? Und wie kann ich mich schützen? Auf diese und ähnliche Fragen wollen wir im Folgenden eingehen.

Computernetzwerke und das Internet

Ein Computernetzwerk ist eine Ansammlung von Rechnern, die miteinander verbunden sind und Informationen austauschen können. Hierbei ist die Art der Verbindung entscheidend und diese kann sowohl kabelgebunden (z.B. via elektrischem oder Glasfaserleiter) als auch drahtlos (z.B. via Funk, Satelit, Infrarot, …) erfolgen. Kabelgebundene Verbindungen sind in der Regel schneller und sicherer, während drahtlose Verbindungen flexibler sind und keine physische Verbindung benötigen. Daher sind drahtlose Verbindungen insbesondere für mobile Geräte wie Smartphones und Tablets von Bedeutung wohingegen kabelgebundene Verbindungen in Büroumgebungen oder Rechenzentren vorherrschen bzw. Knotenpunkte im Internet miteinander verbinden.

Das Internet selbst ist ein weltweites Netzwerk von Computernetzwerken, das auf dem Internetprotokoll (IP) basiert. Das Internetprotokoll ist ein Regelwerk, das den Datenaustausch zwischen Rechnern regelt und dabei die Daten in Pakete aufteilt, die über das Netzwerk verschickt werden. Die Pakete enthalten neben den eigentlichen Daten auch Informationen über den Absender und Empfänger, sodass die Pakete ihren Weg durch das Netzwerk finden können. Die Pakete werden dabei von Routern weitergeleitet, die die Pakete anhand der Empfängeradresse an den nächsten Knotenpunkt im Netzwerk weiterleiten. Die Knotenpunkte sind dabei die Verbindungen zwischen den einzelnen Netzwerken und können sowohl kabelgebunden als auch drahtlos sein. Da Satelit, Funk und andere drahtlose Verbindungen eine (relativ) geringere Bandbreite und “Transportgeschwindigkeit” haben, werden diese in der Regel nur für die letzte Meile verwendet, also die Verbindung zwischen dem Endgerät und dem nächsten Knotenpunkt. Zwischen den Knotenpunkten werden in der Regel Glasfaserleitungen verwendet, die eine hohe Bandbreite und Geschwindigkeit haben. Um die Kommunikation zwischen Kontinenten und Ländern zu ermöglichen, werden unterseeische Kabel verwendet, welche im Folgenden visualisiert sind.

Lebensadern des Internets

Unterseeische Kabel sind die Lebensadern des Internets. Das diese dennoch anfällig sind, zeigt der Schiffsankerschaden 2019 und der Vulkansausbruch 2022 in Tonga, welche die Kommunikation des Inselstaates mit der Außenwelt unterbrachen.

Die folgenden beiden Artikel geben exemplarisch einen kurzen Einblick in die Bedeutung und Funktionsweise von Unterseekabeln:

Damit die Datenpakete ihren Weg durch das Netzwerk finden, benötigen sie eine Adresse, die den Weg durch das Netzwerk beschreibt. Diese Adresse ist die IP-Adresse, die aus einer Kombination von Zahlen und Punkten besteht. Zum Beispiel hat der Server (Computer), der die Webseite der Universität Tübingen bereitstellt, die IP-Adresse 134.2.5.1. Allerdings gibt es mehr Geräte im Internet als es IP-Adressen gibt, sodass die IP-Adressen in der Regel dynamisch vergeben werden (sich also immer wieder ändern) bzw. innerhalb eines Netzwerkes lokal sind.

Um sich den Kommunikationsprozess und die IP-Lokalität vorzustellen, hier eine kleine Analogie:

Sie machen Urlaub in einem Hotel im Zimmer Nummer 5.
Wenn Sie eine Postkarte verschicken möchten, schreiben Sie die Zieladresse auf die Postkarte.
Diese geben sie beim Portier in Zimmer Nummer 1 ab, der die Postkarte an den Empfänger weiterleitet.
Hierzu verlässt der Portier das Hotel und gibt die Postkarte an den Briefträger, der diese ins Briefzentrum bringt.
Im Briefzentrum wird die Postkarte an ein Verteilzentrum weitergeleitet, welches die Postkarte an ein Verteilzentrum in der Nähe des Empfängers weiterleitet.
Von dort gehts ins entsprechende Briefzentrum und von dort zum Empfänger.

Das bedeutet, dass für die Weiterleitung der Postkarte mehrere Personen und Einrichtungen beteiligt sind, die die Postkarte anhand der Adresse weiterleiten, obwohl die meisten von ihnen den Zielort bzw. dessen Lokalisierung gar nicht kennen (Sie selbst, der Portier, der lokale Briefträger, …).

Wenn sie nun Post empfangen möchten, sehen sie an obiger Analogie, dass es nicht reicht, dass die Antwort an sie an Zimmer Nummer 5 adressiert wird. Ohne die Hoteladresse wird sie die Antwort nicht erreichen. Je nach Distanz bedarf es auch noch der Information über die Stadt oder sogar das Land, in dem das Hotel liegt. Zudem bedarf es des lokalen Portiers, der die Postkarte in Zimmer 1 entgegennimmt und an sie ins Zimmer 5 weiterleitet.

Ähnliches gilt auch für das Internet:

Ihr Computer, an dem sie eine Nachricht verschicken, hat eine IP-Adresse (Zimmernummer) innerhalb ihres lokalen Netzwerkes (Hotel).
Um eine Nachricht ins Internet zu senden, benötigen sie einen Router (Portier), der die Nachricht an den nächsten Knotenpunkt weiterleitet.
Hierzu muss der Router sich mit dem Internet verbinden (Hotel verlassen). Diese Verbindung wird durch einen Internet Service Provider (ISP) bereitgestellt, der ihrem Router eine IP-Adresse zuweist (Hoteladresse).
Diese ist eine andere als die IP-Adresse des Routers innerhalb ihres lokalen Netzwerkes! Der Portier lebt also in zwei Welten und hat zwei Adressen: eine innerhalb des Hotels, um für Gäste erreichbar zu sein (Zimmer 1), und eine außerhalb des Hotels (Hoteladresse), um die Post des Hotels zentral entgegen nehmen zu können.

Wie funktioniert das Internet?

Die Idee ist in folgender Grafik dargestellt, die in Blogbeitrag Wie funktioniert das Internet? näher beschrieben wird.

Was sie an der obigen Analogie aber auch erkennen können: jeder der Beteiligten könnte die Postkarte lesen, wenn er wollte!

Das gleiche trifft auch auf das Internet zu: die Datenpakete werden von verschiedenen Knotenpunkten weitergeleitet, die die Pakete anhand der IP-Adresse an den nächsten Knotenpunkt weiterleiten. Wenn die Datenpakete unverschlüsselt sind, können die Knotenpunkte die Datenpakete lesen und ggf. manipulieren. Daher ist es i.d.R. wichtig, die Datenpakete zu verschlüsseln, um die Daten vor unbefugtem Zugriff zu schützen.

HTTPS-Verschlüsselung

Die meisten Webseiten verwenden das HTTPS-Protokoll, um die Datenpakete zu verschlüsseln. Das heisst, bevor irgendwelche Informationen/Daten zwischen ihrem Computer und dem Zielcomputer (Webserver) ausgetauscht werden, tauschen beide Computer “Schlüssel” aus, mit denen der nachfolgende Datenaustausch verschlüsselt werden.

Um das “Henne-Ei-Problem” zu lösen, da die Schlüssel ja auch übertragen werden müssen, wird ein sogenanntes Public-Key-Verfahren verwendet. Hierbei gibt ein Rechner einen öffentlichen Schlüssel aus, mit dem jeder Nachrichten an diesen verschlüsseln kann. Allerdings hat nur der Rechner selbst den geheimen privaten Schlüssel, mit dem die Nachricht auch wieder entschlüsselt werden kann. Auf diese Weise kann man ein Geheimnis an jemanden übermitteln, mit dem dann nur dieser etwas anfangen kann.

Im Falle des HTTPS-Protokolls wird der öffentliche Schlüssel des Webservers genutzt, um die Daten zu verschlüsseln, die dann nur der Webserver entschlüsseln kann.

Der Ablauf ist in folgender Grafik illustriert.

ABER …

Aber wie stellen wir sicher, dass wir überhaupt mit dem richtigen Webserver kommunizieren? Hierzu gibt es sogenannte Zertifikate, die von Zertifizierungsstellen (Certification Authorities, CAs) ausgestellt werden. Diese Zertifikate enthalten den öffentlichen Schlüssel des Webservers und sind von der Zertifizierungsstelle signiert. Das bedeutet, dass die Zertifizierungsstelle bestätigt, dass der öffentliche Schlüssel tatsächlich zum Webserver gehört. Die Zertifikate werden von den Webbrowsern genutzt, um die Identität des Webservers zu überprüfen. Da die Zertifikate zeitlich begrenzt sind, müssen sie regelmäßig erneuert werden.

Wer sieht was?

Trotz Verschlüsselung können alle beteiligten Computer die Metadaten der Datenpakete lesen. Diese Metadaten enthalten Informationen über den Absender, den Empfänger, die Größe des Datenpakets, den Zeitpunkt des Versands, … Dies umfasst u.a. auch die Adresse (URL/IP) der Zielwebseite.

Somit kann z.B. der lokale Router (Portier) sehen, welche Webseiten besucht wurden. Jeder der Zugriff auf diesen (also z.B. ihre lokale FritzBox oder dergleichen) hat (entweder von aussen oder direkt von innerhalb ihres lokalen Netzwerkes), kann diese Metadaten einsehen.

Metadaten Kommunikation

Denken sie kurz über die folgende Frage nach:

Was könnte man aus der Historie ihrer besuchten Webseiten etc. ablesen?

Möglichkeiten …

Was ist ihre Bank?
Wo kaufen sie ein?
Welche Nachrichtenseiten lesen sie?
…

Diese Informationen werden z.T. auch in Logfiles im Router gespeichert.

Auch der Internet Service Provider (ISP) kann sehen, welche Webseiten besucht wurden, welche Apps genutzt wurden, … Dieser ist sogar, aufgrund der Vorratsdatenspeicherung, verpflichtet, diese Daten für eine bestimmte Zeit zu speichern, um diese ggf. zur Aufklärung von Straftaten zur Verfügung zu stellen. Wenn also jemand Zugriff auf diese Daten erhält, kann er ein ziemlich genaues Bild über ihre Aktivitäten im Internet erstellen.

Das gleiche gilt auch für frei verfügbare WLAN-Anbieter (Cafe, Bahnhof, …), die die Datenpakete ihrer Nutzer mitlesen können.

Auch der Webserver, mit dem sie kommunizieren, kann die Metadaten der Datenpakete sehen und auswerten. Und wenn sie sich auf einer Webseite registrieren und eingeloggt sind, dann kann der Webseitenbetreiber auch noch weitere Informationen über sie sammeln.

VPN

Eine VPN-Verbindung (Virtual Private Network) kann helfen, ihre Daten vor neugierigen Blicken zu schützen. Hierbei wird eine verschlüsselte Verbindung zu einem VPN-Server aufgebaut, der dann die Datenpakete weiterleitet.

Der Datenverkehr zwischen ihrem Computer und dem VPN-Server ist verschlüsselt, so dass niemand die Datenpakete lesen kann. Erst der VPN-Server entschlüsselt die Datenpakete und stellt die Verbindung zum Zielserver her. Dadurch kann der Zielserver nur die IP-Adresse des VPN-Servers sehen, nicht aber ihre eigene IP-Adresse. Der VPN-Server kann zwar die Metadaten der Datenpakete sehen, aber er kennt nicht den Inhalt der Datenpakete, wenn diese (z.B. via HTTPS) verschlüsselt sind.

Somit können lokale Router, ISPs, WLAN-Anbieter, … nicht mehr sehen, welche Webseiten besucht werden.

ABER …

Aber der VPN-Anbieter kann die Metadaten der Datenpakete sehen und auswertenm, da er diese ja für sie weiterleitet und entgegennimmt. Auch der Internetprovider des VPN-Anbieters kann die Metadaten der Datenpakete sehen und auswerten, auch wenn diesem die Zuordnung zu ihnen nicht bekannt ist.

VPN schützt also vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter und dessen Internetprovider. Somit sollten sie sich gut überlegen, welchem VPN-Anbieter sie vertrauen.

Ein weiterer Nachteil von VPN ist, dass die Datenpakete über den VPN-Server geleitet werden, was zu einer Verlangsamung der Verbindung führen kann. Allerdings bieten VPN-Anbieter auch Server in verschiedenen Ländern an, so dass sie z.B. über eine IP-Adresse aus einem anderen Land (die des VPN Servers) mit dem Internet kommunizieren, um z.B. Geoblocking oder lokalisierte Werbung zu umgehen.

DNS

Soweit haben wir uns nur mit der Kommunikation zwischen ihrem Computer und dem Webserver beschäftigt, welche auf der Adressierung über IP-Adressen basiert. Allerdings werden IP-Adressen i.d.R. nur bei automatisierten Prozessen verwendet und direkt eingegeben. Wenn sie eine Webseite besuchen, dann geben sie zumeist den Namen einer Webseite ein (z.B. www.uni-tuebingen.de) und nicht die IP-Adresse des dazu gehörigen Webservers.

Die Übersetzung von Namen in IP-Adressen wird über das Domain Name System (DNS) realisiert. Hierfür gibt es spezielle DNS-Server, die die Namen in IP-Adressen übersetzen. Sprich bevor ihr Computer eine Anfrage an den Webserver sendet, fragt er zuerst einen DNS-Server nach der IP-Adresse des Webservers.

In den meisten Fällen wird der DNS-Server von ihrem Internetprovider genutzt. Hier eine mögliche Liste von deutschen DNS Servern. Falls sie eine VPN-Verbindung nutzen, dann erfolgt die DNS-Anfrage über den VPN-Server (bzw. wird von diesem zu dessen DNS-Server weitergeleitet). In beiden Fällen kann der DNS-Server sehen, welche Webseiten besucht werden, da er ja die Anfragen nach den IP-Adressen der Webserver erhält.

Zudem kann auch eine Zensur durch DNS-Server erfolgen, indem der DNS-Server die Anfrage nach bestimmten Webseiten verweigert und ihnen keine oder eine andere IP-Adresse zurückliefert.. Allerdings können sie auch manuell einen anderen DNS-Server einstellen, um z.B. derartige Einschränkungen zu umgehen. Allerdings sollten sie sich auch hier gut überlegen, welchem DNS-Server (Anbieter) sie vertrauen.

URL

Der “Name” einer Webseite wird in mittels einer URL (Uniform Resource Locator) angegeben. Die URL besteht aus mehreren Teilen, die die Adresse des Webservers und den Pfad zur gewünschten Ressource (Webseite, Bild, …) beschreiben. Hier als Beispiel die URL der Login-Seite für den ILIAS Server der Universität Tübingen:

TXT


Markierung
     Protokollende              Serverende    Zielende  Argumenttrenner
     |||                        |                |       |
https://ovidius.uni-tuebingen.de/ilias3/login.php?lang=en&cmd=force_login
|       |                        |      |         |       
|       |                        |      |         +--- Argumente (&-getrennte key-value Paare)
|       |                        |      |              hier: Sprache der Webseite & erzwungener Login
|       |                        |      +--- Name der Ressource (i.d.R. Datei auf dem Webserver)
|       |                        |           hier: dynamische Webseite
|       |                        +--- Pfad zur Ressource 
|       |                             = virtuelle Ordnerstruktur
|       +--- Name des Webservers (oder IP-Adresse)
|            hierfür muss IP-Adresse über DNS aufgelöst werden
+--- Übertragungsprotokoll
     hier: "verschlüsselte Webseite"

Die URL wird in der Regel in der Adresszeile des Browsers angezeigt und kann auch manuell eingegeben werden. So kann man bereits durch einen kurzen Blick auf die URL einiges erkennen, z.B.

ob die Verbindung verschlüsselt ist (hier durch das https://).
ob die Webseite überhaupt auf einem Server der gewünschten Organisation liegt (hier uni-tuebingen.de). Der Name des Webservers ist i.d.R. rückwärts zu lesen, d.h. von der allgemeinen Domain (hier uni-tuebingen.de) zum spezifischen Server (hier ovidius). Das heißt, dass der Webserver ovidius zu den Servern der Domäne uni-tuebingen.de gehört. Hierdurch lassen sich auch Subdomains (z.B. www.uni-tuebingen.de ist der Webserver) und spezielle Dienste (z.B. ovidius.uni-tuebingen.de als Name für den ILIAS Server) unterscheiden. Es sollte darauf geachtet werden, dass die URL auch wirklich zur gewünschten Organisation gehört, da es z.B. Phishing-Seiten gibt, die im Link zwar den Namen einer bekannten Organisation verwenden, um Nutzer zu täuschen, aber auf einen anderen Server verweisen (Beispiel kommt gleich).
Durch Argumente in der URL können z.B. Parameter an die Webseite übergeben werden, die dann in der Darstellung oder Funktionalität der Webseite berücksichtigt werden. In obigem Beispiel wird die Sprache der Webseite auf Englisch gesetzt und ein erzwungener Login durchgeführt. Online-Shops, wie z.B. Amazon, verwenden die Argumente in der URL, um unabhängig von Cookies etc. die Session des Benutzers zu identifizieren und den Warenkorb zu speichern.

Der Name der Resource (hier login.php) sowie die Webseitenargumente (hier lang=en&cmd=force_login) sind bei vielen Webanfragen optional und werden i.d.R. vom Webserver interpretiert. Das heisst der Webserver entschiedet, welche (Standard)Ressource zurückgegeben wird und wie die Argumente verarbeitet werden. So führt z.B. die Teil-URL https://ovidius.uni-tuebingen.de/ilias3/ zur gleichen Resource wie das obige Beispiel.

Link-Check vor jedem Klick

Bevor sie auf URLs klicken (in Webseiten, Suchmaschinen, Emails, Messenger, PDF, ..), sollten sie sich immer kurz die URL ansehen und überlegen, ob sie wirklich auf die gewünschte Webseite führt. Hierbei ist vor allem der hintere Teil des Servernames (z.B. uni-tuebingen.de) wichtig, da dieser den Server identifiziert. Der vordere Teil kann vom Serveradministrator beliebig gesetzt werden und wird oft für Phishing-Attacken missbraucht. Ein mögliches Phishing-Beispiel wäre z.B.

TXT

        |   beliebig setzbar!  | |   Servername    |
https://ovidius.uni-tuebingen.de.phishing-server.com/ilias3/

wobei hier der Servername phishing-server.com ist und nicht uni-tuebingen.de.

So ein Check geht schnell und verhindert schon einen Großteil möglicher Phishing-Attacken.

Das ist wie am Fussgängerüberweg: Auch wenn sie Vorrang haben, schauen sie kurz nach links und rechts, ob wirklich alle anhalten.

Zusammenfassung

Hauptpunkte

Jeder Computer ist über seine IP-Adresse (im Internet) identifizierbar.
Zertifikate bestätigen die Identität von Webservern.
Datenpakete zwischen Computern werden “von Knoten zu Knoten” weitergeleitet.
HTTPS verschlüsselt die Datenpakete.
Metadaten der Datenpakete können von lokalen Routern, ISPs, WLAN-Anbietern, … eingesehen werden.
VPN schützt vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter.
URLs beschreiben das Zieldokument inklusive des Namens des Webservers etc.
Webservernamen werden durch DNS-Server in IP-Adressen aufgelöst

Einordnung im Datenlebenszyklus

Antwort

Das Wissen um Netzwerkkommunikation und Verschlüsselung ist in allen Phasen des Datenlebenszyklus wichtig. Kenntnisse darum erleichtern uns, Probleme und Ursachen zu erkennen und zu lösen, die im Zusammenhang mit der Kommunikation von Daten auftreten können.

Immer dann, wenn wir auf fremde Rechner zugreifen oder mit diesen interagieren, sollte uns bewusst sein, dass wir dabei Spuren hinterlassen und dass diese Spuren auch von anderen eingesehen werden können.

Hinweis für den Dozenten

Sitzungsaufgabe zu “Netzwerke”

Content from Browser

Zuletzt aktualisiert am 2025-01-03 | Diese Seite bearbeiten

Geschätzte Zeit: 40 Minuten

Übersicht

Fragen

Browser?
Cookies?
JavaScript?
Suchmaschinen?

Ziele

Aufgaben und Funktionsweise von Browsern
Einsatz und Ziele von Cookies
Möglichkeiten und Grenzen von JavaScript
Gedanken zu Suchmaschinen und GPTs/LLMs

Browser sind Programme, die es ermöglichen, Webseiten oder Dokumente anzuzeigen und mit diesen zu interagieren. Sie sind die Schnittstelle zwischen dem Nutzer und dem World Wide Web. Beispiele sind Google Chrome, Mozilla Firefox, Microsoft Edge und Safari (Apple).

Historie

Die ersten Browser waren textbasiert und konnten nur einfache HTML-Dokumente (Webseiten) darstellen. Derartige Browser sind heute noch im Einsatz, z.B. lynx oder w3m, und werden oft in der Kommandozeile verwendet. Diese Browser sind sehr schnell und ressourcenschonend, da sie keine Grafiken oder JavaScript ausführen können, und können daher auch bei sehr langsamen Internetverbindungen eingesetzt werden. Im Folgenden ist das Darstellen der Google-Startseite in w3m dargestellt:

Seit den 1990er Jahren sind Browser in der Lage, auch Grafiken und andere Medien anzuzeigen. Die ersten Browser, die dies ermöglichten, waren Netscape Navigator und Microsoft Internet Explorer. Die “Browserkriege” der 1990er Jahre führten zu einer Vielzahl von proprietären Technologien, die die Entwicklung von Webseiten erschwerten. Gegen Ende der 1990er Jahre hatte Microsoft eine marktbeherrschende Stellung erreicht, die erst in den 2000er Jahren durch den Aufstieg von Mozilla Firefox und später Google Chrome gebrochen wurde. Die Entwicklung ist in der folgenden Grarik dargestellt.

Mit der Einführung von Google Chrome im Jahr 2008 begann eine neue Ära der Browserentwicklung. Chrome war der erste Browser, der auf der JavaScript-Engine V8 basierte, die deutlich schneller war als die Konkurrenz. Chrome führte auch eine Sandbox-Technologie ein, die es ermöglichte, Webseiten in isolierten Prozessen auszuführen, um die Sicherheit zu erhöhen. Seitdem haben sich die Browser stark weiterentwickelt und sind heute in der Lage, komplexe Webanwendungen auszuführen, die früher nur als Desktop-Anwendungen (eigenständige Programme) möglich waren. Mittlerweile basieren fast alle Browser auf der Open-Source-Engine Chromium (dem Herzstück von Chrome), die von Google entwickelt wurde, und sind daher sehr ähnlich in ihrer Funktionsweise.

Aufgabe

Microsoft Internet Explorer war lange Zeit der dominierende Browser, da er mit Windows gebündelt war.

Welche Gründe könnten für den Aufstieg von Google Chrome verantwortlich sein?

Antwort

Chrome war (wirklich) besser:
- schneller und ressourcenschonender
- Unterstützung für moderne Webstandards
- …
ABER: Chrome ist mittlerweile der Standardbrowser auf Android-Geräten, was auch zu einer hohen Verbreitung beiträgt

Aufgaben und Funktionsweise von Browsern

Browser haben verschiedene Aufgaben, darunter:

Anzeigen von Webseiten
Ausführen von JavaScript
Verwalten von Cookies
Anzeigen von Medien (Bilder, Videos, Audio)
Ausführen von Webanwendungen (z.B. Google Docs, Facebook)
Unterstützung von Webstandards (HTML, CSS, JavaScript)
Sicherheit (Sandboxing, HTTPS, Passwörter, Content Security Policy)
Barrierefreiheit (Screenreader, Tastaturnavigation)
Datenschutz (Verschlüsselung, Do Not Track)
Erweiterbarkeit (Plugins, Addons)
…

Browser sind also weit mehr als nur ein “Fenster” ins Internet, sondern eine komplexe Software, die viele verschiedene Technologien und Standards unterstützt und bündelt. Im Folgenden werden einige dieser Aufgaben näher beleuchtet.

Browser vs. Suchmaschine

Wichtig: Browser sind keine Suchmaschinen!

Suchmaschinen = Webseiten, die es ermöglichen, Inhalte im Internet zu finden.
Browser = Programme/Werkzeuge, die Webseiten anzeigen und mit ihnen interagieren.

Das heisst, man benötigt einen Browser, um eine Suchmaschine zu benutzen, aber nicht umgekehrt.

Webseiten anzeigen

Bevor wir uns damit beschäftigen, was alles geschehen muss, damit eine Webseite angezeigt wird, schauen wir uns an, wie eine Webseite aufgebaut ist.

Im Folgenden werden die wichtigsten Bestandteile einer Webseite zergliedert dargestellt.

Zentral für eine Webseite ist die HTML-Datei, die den strukturellen Aufbau der Seite definiert. In dieser Datei werden die verschiedenen Elemente der Seite (Überschriften, Absätze, Links, Bilder, etc.) definiert und miteinander verknüpft bzw. deren Anordnung festgelegt.

Hierbei werden in der HTML-Datei auch Verweise auf andere Ressourcen gemacht, die für die Darstellung der Seite notwendig sind. So werden z.B. Bilddateien referenziert und deren Position auf der Seite festgelegt. Auch Schriftarten und CSS-Dateien (Cascading Style Sheets) werden in der HTML-Datei referenziert, um das Aussehen der Seite zu definieren.

Interaktivität und dynamische Inhalte werden durch JavaScript ermöglicht, das ebenfalls in der HTML-Datei eingebettet oder referenziert wird. JavaScript ermöglicht es, auf Benutzereingaben zu reagieren, Daten zu verarbeiten und zu speichern, und die Seite dynamisch zu verändern.

Alle diese Ressourcen müssen vom Browser zuerst geladen und verarbeitet werden, um die Seite anzuzeigen zu können. Das Laden und Verarbeiten dieser Ressourcen wird als Fetching bezeichnet und kann je nach Grösse und Anzahl der Ressourcen einige Zeit in Anspruch nehmen, was sich auf die Ladezeit der Seite auswirkt und stark von der Internetverbindung abhängt. Das anschliessende Rendering der Seite, also das Anzeigen der Seite im Browserfenster, kann ebenfalls einige Zeit in Anspruch nehmen, insbesondere wenn die Seite viele Elemente und komplexe Layouts enthält. Hierbei müssen die verschiedenen Elemente der Seite anhand des HTML-Codes und der CSS-Definitionen positioniert und formatiert werden, Bilder und Schriftarten geladen und dargestellt werden, und ggf. JavaScript-Code ausgeführt werden, um finale Anpassungen vorzunehmen. Dieser Prozess wird als Rendering Pipeline bezeichnet und ist ein komplexer Vorgang, der viele Schritte umfasst und von der Leistungsfähigkeit des Browsers und des Endgeräts abhängt.

JavaScript

Heutzutage sind Webseiten oft interaktiv und dynamisch, d.h. sie reagieren auf Benutzereingaben, laden Daten nach, und passen sich an die Umgebung (z.B. den Browser oder das Endgerät) an. Hierfür wird JavaScript verwendet, eine Programmiersprache, die im Browser ausgeführt wird.

Ein zentraler Fokus der Verwendung von JavaScript in Browsern ist die Sicherheit, da JavaScript potenziell gefährliche Aktionen ausführen kann, wie z.B. das Lesen von Dateien auf dem Computer des Benutzers oder das Senden von Daten an einen Server. Aus diesem Grund sind Browser so konzipiert, dass sie JavaScript in einer Sandbox ausführen, d.h. in einer isolierten Umgebung, die den Zugriff auf bestimmte Funktionen und Ressourcen des Endgeräts einschränkt. So kann JavaScript z.B. nicht auf das Dateisystem des Benutzers zugreifen oder auf andere Browser-Tabs oder -Fenster zugreifen. Dies dient dazu, die Sicherheit des Benutzers und seiner Daten zu gewährleisten und die Integrität des Browsers zu schützen.

Was geht (nicht) mit JavaScript im Browser?

Möglich	Verhindert
Änderung der angezeigten Seite (HTML, CSS, Inhalte, …)	Kein Zugriff auf andere Browser-Tabs oder -Fenster
Interaktion mit dem Benutzer (Klicks, Tastatureingaben, …)	Kein (unauthorisierter) Zugriff auf Hardware (Kamera, Microfon, …)
Laden von Daten vom Webseitenserver (AJAX, Fetch, …)	Keine direkte Kommunikation mit anderen Webseiten
Speichern von Daten im Browser (Cookies, LocalStorage, …)	Kein Zugriff auf das Dateisystem des Benutzers
Komplexe Visualisierungen und Animationen	Keine Ausführen von Programmen auf dem Endgerät

Aufgabe

Die Folgende Grafik von javacript.info fasst die verschiedenen Möglichkeiten und Einschränkungen von JavaScript im Browser zusammen.

Gleichen sie die Punkte aus der obigen Tabelle mit den Elementen der Grafik ab.

Antwort

Möglichkeiten:
- Serverkommunikation (grüner Smiley)
- (stark beschränkter) Endgerätezugriff (roter Smiley nach unten)
Verhindert:
- Zugriff auf Hardware (roter Smiley nach unten)
- Zugriff auf andere Webseiten/Server (roter Smiley nach oben rechts)
- Zugriff auf andere Browser-Tabs/Fenster (roter Smiley nach rechts)
- Zugriff auf Dateisystem (roter Smiley nach unten)
- Ausführen von Programmen (roter Smiley nach unten)

Weiterführende Informationen

Weiterführende Informationen zu JavaScript und seinen Möglichkeiten und Einschränkungen finden Sie auf der Webseite javascript.info.

Cookies

Cookies sind kleine Textdateien, die vom Browser auf dem Endgerät des Benutzers gespeichert werden und Informationen über die Interaktion des Benutzers mit der Webseite enthalten. Cookies werden verwendet, um den Benutzer zu identifizieren, seine Einstellungen und Präferenzen zu speichern, und das Verhalten des Benutzers auf der Webseite zu verfolgen. Sie sind daher ein wichtiges Instrument für die Personalisierung von Webseiten und die Verbesserung der Benutzererfahrung. Mögliche Anwendungen von Cookies sind z.B.:

Authentifizierung: Cookies werden verwendet, um den Benutzer zu identifizieren und seine Anmeldung auf der Webseite zu speichern.
Sitzungsverwaltung: Cookies werden verwendet, um Informationen über die aktuelle Sitzung des Benutzers zu speichern, z.B. den Warenkorb in einem Online-Shop.
Präferenzen: Cookies werden verwendet, um die Einstellungen und Präferenzen des Benutzers zu speichern, z.B. die Sprache oder das Design der Webseite.

Diese sogenannten Erstanbieter-Cookies (First-Party-Cookies) werden beim Wiederbesuch der Webseite vom Browser an den Server gesendet, um dem Server Informationen über den Benutzer und seine bisherige Interaktion mit der Webseite zur Verfügung zu stellen. Hierbei werden dem Server nur die Informationen übermittelt, die im Webseiten-zugehörigen Cookie gespeichert sind. Ein Zugriff auf Cookies anderer Webseiten ist nicht möglich.

ABER…

Cookies können auch von Drittanbietern (z.B. Werbenetzwerken) verwendet werden, um das Verhalten des Benutzers über verschiedene Webseiten hinweg zu verfolgen und personalisierte Werbung anzuzeigen.

Tracking: Cookies werden verwendet, um das Verhalten des Benutzers auf der Webseite zu verfolgen und personalisierte Inhalte oder Werbung anzuzeigen.

Hierfür werden Drittanbieter-Cookies (Third-Party-Cookies) verwendet, die beim Laden von Teilen der Webseite (z.B. Werbung) von einem anderen Server als dem Webseiten-Server gesetzt werden. Hierdurch können Drittanbieter Informationen über das Verhalten des Benutzers auf verschiedenen Webseiten sammeln und personalisierte Werbung webseitenübergreifend anzeigen. Die Idee ist in folgender Grafik dargestellt.

Datenschutz und Sicherheit

Daher sind Cookies auch ein umstrittenes Thema im Hinblick auf Datenschutz und Sicherheit. Einerseits ermöglichen sie die Personalisierung von Webseiten und die Verbesserung der Benutzererfahrung, andererseits können sie auch zur Überwachung und Profilbildung der Benutzer verwendet werden, was Datenschutzbedenken aufwirft. Deshalb gibt es in der EU die Cookie-Richtlinie, die die Verwendung von Cookies regelt und den Benutzern die Kontrolle über die Verwendung von Cookies gibt. Aufgrund dieser Richtlinie müssen Webseiten den Benutzern die Möglichkeit geben, der Verwendung von Cookies zuzustimmen oder sie abzulehnen.

Löschen von Cookies

Benutzer können Cookies in ihrem Browser löschen, um ihre Spuren im Internet zu entfernen und ihre Privatsphäre zu schützen. Die meisten Browser bieten die Möglichkeit, Cookies selektiv oder alle auf einmal zu löschen. Dies kann in den Einstellungen des Browsers oder über spezielle Erweiterungen oder Add-Ons erfolgen.

Aufgabe

Im Folgenden sollen sie sich ein Bild machen, wieviele Cookies und welche Informationen darin gespeichert sind.

Öffnen sie die Google Startseite in ihrem Browser https://www.google.de/
Öffnen sie die Cookie-Informationen ihres Browsers
- Google Chrome: Tastenkombination F12 und dann Speicher >> Cookies
- Mozilla Firefox: Tastenkombination UMSCHALT+F9
- Microsoft Edge: Tastenkombination F12 und dann Speicher >> Cookies
Öffnen sie die Cookie-Details von www.google.de an

Bis wann sind die Cookies gültig?

Antwort

Die Gültigkeit der Cookies ist unterschiedlich und hängt von den Einstellungen des Servers und des Browsers ab. Zum Zeitpunkt der Erstellung dieses Dokuments (Dez 2024) haben die Cookies auf der Google-Startseite eine Gültigkeit von einem halben Jahr.

Dies zeigt, dass Cookies eine lange Lebensdauer haben können, da mit ihrer Hilfe i.d.R. über einen längeren Zeitraum Informationen über den Webseitennutzer gespeichert werden.

Best Practices für Browsernutzung

Aktualisieren Sie Ihren Browser regelmäßig: Halten Sie Ihren Browser auf dem neuesten Stand, um die neuesten Sicherheitsupdates und Funktionen zu erhalten.
Verwenden Sie sichere Passwörter: Verwenden Sie sichere Passwörter, um Ihr Konto und Ihre Daten zu schützen.
Verwenden Sie HTTPS: Verwenden Sie HTTPS, um die Sicherheit Ihrer Verbindung zu gewährleisten und die Übertragung sensibler Daten zu schützen.
Verwenden Sie sichere Verbindungen: Vermeiden Sie unsichere WLAN-Verbindungen und verwenden Sie VPNs, um Ihre Verbindung zu schützen.
Verwenden Sie sichere Erweiterungen: Verwenden Sie nur vertrauenswürdige Erweiterungen und Add-Ons, um die Sicherheit Ihres Browsers zu gewährleisten.
Verwenden Sie sichere Einstellungen: Überprüfen Sie die Sicherheitseinstellungen Ihres Browsers und passen Sie sie an Ihre Bedürfnisse an.
Verwenden Sie sichere Cookies: Verwenden Sie nur sichere Cookies und löschen Sie regelmäßig alte Cookies, um Ihre Privatsphäre zu schützen.
Schließen Sie nicht benötigte Tabs: Schließen Sie nicht benötigte Tabs und Fenster, um die Leistung Ihres Browsers zu verbessern und Speicherplatz freizugeben.
Löschung von Verlaufsdaten: Löschen Sie regelmäßig Ihren Browserverlauf, um Ihre Privatsphäre zu schützen und Speicherplatz freizugeben.
Ausloggen aus Konten: Melden Sie sich immer aus Ihren Konten ab, wenn Sie den Browser verlassen, um Ihre Daten zu schützen und personalisiertes Profiling zu reduzieren.

WICHTIG

AUCH AUF DEM HANDY !!!

Suchmaschinen

Aufgrund der Vielzahl von Webseiten und der Menge an Informationen, die im Internet verfügbar sind, sind Suchmaschinen ein unverzichtbares Werkzeug für die Navigation im Internet. Hierbei werden dem Benutzer anhand von gegebenen Schlagworten oder Suchbegriffen relevante Webseiten vorgeschlagen und z.T. Informationen aus diesen direkt angezeigt. Um dies zu ermöglichen, müssen Suchmaschinen das Internet durchsuchen und indexieren, d.h. die Inhalte von Webseiten analysieren und in einer Datenbank speichern.

Der Prozess der Suche und Indexierung wird von speziellen Programmen, sogenannten Crawlern oder Spidern, durchgeführt, die das Internet nach neuen Inhalten durchsuchen und diese in die Datenbank der Suchmaschine aufnehmen. Hierbei werden bereits bekannte Webseiten regelmäßig auf Änderungen überprüft und neue Webseiten (z.B. aufgrund von Links von bekannten Webseiten) hinzugefügt, um sicherzustellen, dass die Datenbank aktuell und vollständig ist. Dies geschieht in der Regel automatisch und kontinuierlich, um sicherzustellen, dass die Suchergebnisse immer auf dem neuesten Stand sind.

Für eine gegebene Suchanfrage werden dann die relevantesten Ergebnisse aus dieser Datenbank zurückgegeben. Hierfür werden sogenannte Ranking-Algorithmen verwendet, die die Relevanz der Ergebnisse anhand verschiedener Kriterien bewerten und sortieren. Dies geschieht in der Regel in Bruchteilen von Sekunden und ermöglicht es den Benutzern, schnell und effizient Informationen zu finden.

Grundlegender Prozess der Suchmaschinenfunktionalität

Weiterführende Informationen

Weitere Details zu Suchmaschinen und im speziellen wissenswertes zur Google Suchmaschine findet sich auf der Seite Wie funktioniert eine Suchmaschine von XOVI.

Meta-Suchmaschinen

Meta-Suchmaschinen sind Suchmaschinen, die die Ergebnisse mehrerer Suchmaschinen kombinieren und dem Benutzer eine umfassendere und vielfältigere Auswahl an Ergebnissen bieten. Dies kann dazu beitragen, dass der Benutzer eine breitere Palette von Informationen erhält und nicht nur auf die Ergebnisse einer einzelnen Suchmaschine beschränkt ist.

Marktanteile von Suchmaschinen

Historisch gesehen gab es vor 2000 eine Vielzahl von Suchmaschinen, die um Marktanteile konkurrierten.

Zeitverlauf von Suchmaschinen-Marktanteilen

Mit dem Aufstieg von Google in den 2000er Jahren hat sich der Markt jedoch stark konsolidiert, und Google hat heute einen Marktanteil von über 90% in vielen Ländern. Dies hat dazu geführt, dass Google zu einer der dominantesten und einflussreichsten Suchmaschinen der Welt geworden ist und einen erheblichen Einfluss auf die Art und Weise hat, wie Menschen Informationen im Internet finden und welche sie konsumieren.

Mögliche Probleme

Grundlegend müssen Suchmaschinen mit Bedacht und Vorsicht genutzt werden, um die Qualität und Relevanz der Ergebnisse zu gewährleisten und die eigenen Daten und Privatsphäre zu schützen. Hinter (fast) jeder Suchmaschine steht ein Unternehmen und somit ein Geschäftsmodell, das darauf abzielt, die Suche bzw. Suchergebnisse zu monetarisieren und die Benutzerdaten zu nutzen, um personalisierte Werbung zu schalten oder andere Dienste anzubieten.

Getreu dem Motto “No free lunch”, sollte man immer darüber nachdenken, wie sich scheinbar kostenlose Services (wie Suchmaschinen) eigentlich finanzieren. Denn die kontinuierliche Verbesserung und Bereitstellung einer Suchmaschine ist mit erheblichen Kosten verbunden (STROM, Hardware, Personal, …), die irgendwie gedeckt werden müssen. Somit zahlt man bei Benutzung ggf. nicht direkt mit Geld, sondern mit seinen Daten und seiner Aufmerksamkeit bzw. wird gezielt zu Produkten/Dienstleistungen von Dritten geleitet, die mit dem Suchmaschinenbetreiber kooperieren.

Daher sind die Hauptrisiken und Probleme bei der Nutzung von Suchmaschinen:

Filterblase: Suchergebnisse werden z.T. eingeschränkt und “personalisiert”, dass Benutzer nur Informationen sehen, die ihren Interessen und Ansichten entsprechen, was zu einer “Filterblase” und einseitiger Informationsgewinnung führen kann.
Datenschutz: Suchmaschinen können Informationen über das Suchverhalten der Benutzer sammeln und speichern, was Datenschutzbedenken aufwirft.
Zensur: Suchmaschinen können Ergebnisse filtern oder zensieren, was zu einer eingeschränkten Informationsfreiheit führen kann.
Manipulation: Suchmaschinen können Ergebnisse manipulieren oder beeinflussen, um bestimmte Interessen zu fördern oder zu unterdrücken.

Geht’s auch ohne Google?

Mit dieser Frage beschäftigen sich die Autoren der Plattform “Digital Courage” in ihrem Artikel

Suchmaschinen: Alternativen zu Google.

GPTs und LLMs als Suchmaschinen

In den letzten Jahren haben sich auch neue Ansätze für die Suche und das Auffinden von Informationen im Internet entwickelt, die auf künstlicher Intelligenz und maschinellem Lernen basieren. Ein Beispiel hierfür sind Generative Pre-trained Transformer (GPT)-Modelle und Large Language Models (LLM), die darauf abzielen, natürliche Sprache zu verstehen und zu generieren und komplexe Suchanfragen zu verarbeiten. Beispiele hierfür sind OpenAI’s ChatGPT oder Google’s BERT.

Um dies zu ermöglichen, werden riesige Mengen an Textdaten verwendet, um die Modelle zu trainieren und ihnen beizubringen, natürliche Sprache zu verstehen und zu generieren. Dies umfasst Texte aus dem Internet, Büchern, Artikeln, Foren, sozialen Medien und anderen Quellen, um ein umfassendes Verständnis der menschlichen Sprache und des Wissens zu entwickeln.

Im Gegensatz zur klassischen Suchmaschine, welche relevante Dokumente von Dritten zu einer Suchanfrage liefert, zielen GPTs und LLMs darauf ab, direkte Antworten auf komplexe Fragen zu liefern und natürliche Dialoge mit den Benutzern zu führen. Dies kann dazu beitragen, dass Benutzer schnell und effizient Informationen finden und komplexe Fragen beantwortet bekommen, ohne auf mehrere Suchergebnisse klicken zu müssen.

Einige der Vorteile von GPTs und LLMs als Suchmaschinen sind:

Natürliche Sprachverarbeitung: Die Fähigkeit, natürliche Sprache zu verstehen und zu generieren, ermöglicht es Benutzern, komplexe Fragen zu stellen und direkte Antworten zu erhalten.
Effizienz: Durch die direkte Beantwortung von Fragen können Benutzer schnell und effizient Informationen finden, ohne auf mehrere Suchergebnisse klicken zu müssen.
Personalisierung: Durch das Verständnis der Benutzeranfragen können GPTs und LLMs personalisierte Antworten und Empfehlungen liefern, die auf den individuellen Bedürfnissen und Interessen der Benutzer basieren.

ABER …

Gerade die Personalisierung und die direkte Beantwortung von Fragen durch GPTs und LLMs kann auch zu Problemen führen:

Einseitige Informationsgewinnung: Durch die direkte Beantwortung von Fragen können Benutzer nur eine begrenzte Auswahl an Informationen erhalten, was zu einer einseitigen Informationsgewinnung führen kann. Der Effekt einer Filterblase (wie bei Suchmaschinen) kann hierdurch noch verstärkt werden.
Fehlinformationen: Da die Modelle auf riesigen Textdaten trainiert werden, können sie auch Fehlinformationen und Vorurteile enthalten und weiterverbreiten.
Manipulation: Die Modelle können auch (durch Selektivität bei der Zusammenstellung der Trainingsdaten) manipuliert oder beeinflusst werden, um bestimmte Interessen zu fördern oder zu unterdrücken.
Datenschutz: Die Verwendung von GPTs und LLMs erfordert z.T. (je nach Aufgabe) den Upload von Informationen und Daten, was Datenschutzbedenken aufwerfen kann.
Abhängigkeit von großen Unternehmen: Die Modelle werden von großen Unternehmen wie OpenAI oder Google entwickelt und betrieben, was zu einer Abhängigkeit von diesen Unternehmen führen kann.
Begrenzte Aktualität: Die Qualität und vor allem Aktualität der Antworten hängt stark von den Trainingsdaten ab, was zu Problemen führen kann, wenn die Daten veraltet sind oder nicht aktualisiert werden.

Zusammenfassung

Hauptpunkte

Browser sind komplexe Programme, die viele Funktionen und Dienste integrieren, um Benutzern das Surfen im Internet zu ermöglichen.
Webseiten bestehen aus HTML, CSS und JavaScript, welche die Struktur, das Design und die Interaktivität der Seiten definieren.
Cookies speichern webseitenspezifisch Informationen auf dem Gerät des Benutzers, um Einstellungen und Präferenzen zu speichern.
Mit Hilfe von Cookies, JavaScript und anderen Technologien können Webseiten Benutzerdaten sammeln und verarbeiten.
Suchmaschinen sind spezialisierte Dienste, die Benutzern helfen, Informationen im Internet zu finden, indem sie relevante Dokumente zu einer Suchanfrage liefern.
Einseitige Informationen (durch Personalisierung), Datenschutz, Zensur und Manipulation sind Hauptrisiken und Probleme bei der Nutzung des Internets.

Einordnung im Datenlebenszyklus

Antwort

Browser und das Suchen und Finden von Informationen im Internet sind eng mit allen Phasen des Datenlebenszyklus verknüpft.

Einen besonderen Einfluss haben sie jedoch in den Phasen Planning und Generating, denn bei der Planung und Generierung/Sammlung von Daten und Informationen spielen Browser und Suchmaschinen eine wichtige Rolle. Eine unvollständige oder einseitige Datenbasis kann zu Verzerrungen und Fehlern in den späteren Phasen führen.

Hinweis für den Dozenten

Content from Reguläre Ausdrücke

Zuletzt aktualisiert am 2025-04-17 | Diese Seite bearbeiten

Geschätzte Zeit: 50 Minuten

Übersicht

Fragen

Was?
Aufbau?
Wo?

Ziele

Verständnis was Reguläre Ausdrücke sind
Wissen um die Elemente von Regulären Ausdrücken
Anwendung von Regulären Ausdrücken

Reguläre Ausdrücke sind einer der Grundpfeiler für die komplexe Textdatenprozessierung. Mit diesen kann man mit wenig Aufwand

nach Vorkommen von Textmustern suchen, um diese zu
- extrahieren,
- zählen, oder
- ersetzen (mit neuen Texten oder Teilen des alten Textes).

Dabei ist unter “Textmuster” nicht ein exaktes Wort oder dergleichen zu verstehen, sondern eine Suchkodierung, welche Variabilität zulässt.

Als Einsteig ein kleines Beispiel: Wir haben die folgenden Worte

soll gefunden werden	soll nicht gefunden werden
Frida	Fritz
Erna	Hugo
Lisa	Lino

Die einfachste (und am wenigsten flexible) Lösung wäre es, die gesuchten Worte alle als Alternativen hintereinander in einem regulärem Ausdruck aufzulisten:

“Frida|Erna|Lisa” = wobei “|” für ein “ODER” steht

Wenn man reguläre Ausdrücke baut, muss man genau schauen, was die gesuchten Wörter (oder Textpassagen) gemeinsam haben. In unserem Fall enden alle gesuchten Namen mit “a”, was wir verwenden können. Was davor für Buchstaben kommen (und wieviele), ist erst einmal unerheblich, um die Worte von den nicht gesuchten zu unterscheiden. Daher könnten wir folgendes verwenden:

“.*a” = wobei “.” für ein beliebiges Zeichen (Buchstabe, Ziffer, Leer-, Satzzeichen, …) steht und “*” für eine beliebige Anzahl (auch 0) des vorherigen Teils (also hier “.”)

Das funktioniert, liefert aber ggf. zu viel Variabilität, was ein häufiger Fallstrick bei regulären Ausdrücken ist. Sprich sie sind zu unkonkret. In unserem Fall passt der Ausdruck auch auf: “..a”, “lala”, “Hans-Anna”, … Sie sehen das Problem? Um dieses zu umgehen, könnte man folgende Sachen machen:

“.+a” = wir fordern mit “+”, dass vor dem “a” mindestens ein (beliebiger) Buchstabe ist
“[a-zA-Z]+a” = wir geben in “[]” ganz genau an, welche Buchstaben wir erlauben (hier z.B. keine Umlaute)
- mit Bindestrich “-” können wir auch Reihen angeben, z.B. “[a-d]” = a, b, c oder d
“\w+a” = dazu könnten wir auch eine vordefinierte character class (hier \w für Wortbuchstabe) nehmen
“[A-Z][a-z]*a” = mit “[A-Z]” sichern wir, dass der erste Buchstabe grossgeschrieben ist und anschliessend können (da “*”) nur Kleinbuchstaben in der Wortmitte sein
… und so weiter

Das Beispiel zeigt, dass reguläre Ausdrücke ganz allgemein (“.*a”) oder sehr präzise (“Frida|Erna|Lisa”) sein können. Die Kunst ist es nun, den für die anstehende Aufgabe passenden regulären Ausdruck zu erdenken. Dazu hilft einem das beiliegende Cheatsheet, welches man sicher auch in Zukunft immer wieder heraus holen muss.

Suche von Textmustern

Reguläre Ausdrücke werden von links nach rechts abgearbeitet und buchstabenweise abgeglichen (gematcht).

Zudem muss man wissen, dass i.d.R. das längste passende Textstück als Treffer gesucht wird. Man spricht hierbei von greedy matching.

Aufgabe

Öffnen sie den Online RegEx-Tester https://regex101.com/.

Kopieren sie die Namen aus obiger Tabelle in das Textfeld und prüfen sie, ob die bisher vorgestellten regulären Ausdrücke wirklich funktionieren.

Wichtig: Kopieren sie die regulären Ausdrücke ohne Anführungszeichen in das Suchfeld.

Ordnen sie die regulären Ausdrücke nach ihrer Spezifität (von allgemein nach spezifisch).

Antwort

Ausdrücke in steigender Spezifität:

“.*a” (sehr allgemein, matched auch nur ein einzelnes “a”)
“\w+a” (\w matched auch Zahlen und Unterstriche)
“[a-zA-Z]+a” (nur Buchstaben, keine Umlaute oder ß)
“[A-Z][a-z]*a” (erst Grossbuchstabe, dann Kleinbuchstaben)
“Frida|Erna|Lisa” (nur die drei Namen)

Aufbau

Reguläre Ausdrücke bestehen aus einer Aneinanderreihung von Elementen, die in einer bestimmten Reihenfolge stehen müssen. Das heißt, in den meisten Fällen beschreibt man ein Wort oder eine Wortgruppe, wobei einzelne Positionen unterschiedliche Buchstaben aufweisen können. An diesen Stellen kommen die sogenannten character classes ins Spiel, die Platzhalter für Buchstaben, Zahlen, Leerzeichen, … sind.

Damit nicht nur Wörter gleicher Länge mit einem Suchmuster gefunden werden, gibt es Quantifikatoren, die angeben, wie oft das vorherige Zeichen vorkommen soll (oder kann).

Zuletzt gibt es noch Anker, die eingrenzen, WO ein Suchmuster im Text vorkommen soll (z.B. am Anfang oder Ende eines Wortes oder der Zeile etc.).

Final können mit Gruppierungen auch Teile des gefundenen Textes extrahiert werden, um sie weiter zu verarbeiten oder um z.B. Wiederholungen im Textmuster zu beschreiben.

In normalen regulären Ausdrücken sind alle Buchstaben, die Teil des Suchmusters sind, auch Teil des Treffers/Matches. Mit Lookarounds können aber auch “Randbedingungen” definiert werden, die nicht Teil des Matches sind, aber dennoch erfüllt sein müssen. Zum Beispiel das vor einem Wort ein Leerzeichen oder Satzzeichen sein muss, aber dieses nicht Teil des Matches ist.

RegEx Magic

Die Kunst besteht nun darin, die richtigen Elemente in der richtigen Reihenfolge zu kombinieren, um das gewünschte Suchmuster zu beschreiben.

Hierbei sollte das Muster so allgemein wir nötig und so spezifisch wie möglich sein, um nur die gewünschten Treffer zu erhalten. Dies ist vor allem wichtig, wenn das Muster nur an einem kleinen Beispieldatensatz entwickelt, später aber auch auf andere Datensätze angewandt werden soll.

Elemente

Grundlegend unterscheidet man bei regulären Ausdrücken folgende Elemente:

character classes, d.h. Platzhalter die auf mehrere Buchstaben matchen, z.B.
- . = jedwedes Zeichen
- [xyz] = explizite Zeichenliste, hier “x”, “y” und “z”
  - auch Reihen möglich, z.B. [3-7] = 3,4,5,6,7
- \s = whitespaces = Platzhalter für alle unsichtbaren Zeichen, z.B. Leerzeichen, Tabulator, …
- \d = digits = Zahlen = [0-9]
- \w = (english) word = [A-Za-z0-9_] (keine Umlaute etc.!)
- Negation:
  - Grossschreibung \S, \D, .. = alles “ausser” den Zeichen der entsprechenden “kleinen Klasse” \s, \d, …
  - [^xyz] = das ^ negiert die explizite Liste (alles ausser x,y,z)
Quantifikatoren, d.h. wie häufig soll das vorangehende Zeichen gematcht werden, z.B.
- ? = ein oder kein mal
- + = mindestens einmal
- * = kann mehrfach vorkommen oder gar nicht
- {..} = explizite Anzahl
Anker, d.h. wo soll der match verortet sein, z.B.
- ^ = Zeilenanfang
- $ = Zeilenende
- \b = Wortgrenze, z.B. er\b matcht nur “er” am Wortende
Gruppen, d.h. Zusammenfassung von match-Teilen, z.B.
- (..) = Klammern werden nicht gematcht, sondern sind Markierungen
- z.B. für lokale Alternativdefinition ala (Hi|Ku)nz = Hinz oder Kunz
- \1 Rückreferenzierung auf 1., 2., … vorangehende Gruppe
  - z.B. (.).\1 matcht aha, oho, ana, d.h. erster und letzter Buchstabe gleich

Neben den oben genannten RegEx-spezifischen \..-Elementen gibt es auch immer noch einige Sonderzeichen für die auch Escapes notwendig sind, z.B.

\t für einen Tabulator
\n für Zeilenumbruch

Ausserdem müssen Zeichen, die in RegEx eine spezielle Bedeutung haben, auch escaped werden z.B.

\[ für das normale [-Zeichen
\\ für das normale \-Zeichen
\. für das normale .-Zeichen
\+ für das normale +-Zeichen
…

Tutorials

Wem das jetzt zu schnell oder kompakt war, oder wer noch etwas bei regulären Ausdrücken ins Schwimmen gerät, dem seien folgende Tutorials ans Herz gelegt:

step-by-step Tutorial zu regulären Ausdrücken von regexone.com

RegEx Kreuzworträtsel

Zudem gibt es auch spielerische Ansätze, um das Lesen und Verstehen von regulären Ausdrücken zu üben.

Besuchen sie dazu die Seite:

RegEx-Kreuzworträtsel 👌

Bis zu welchem Level kommen sie? 😎

CheatSheet

}

Zusammenfassung

Hauptpunkte

Reguläre Ausdrucke kodieren Textsuchmuster mit Variabilität in
- den vorkommenden Zeichen (positionsspezifisch)
- der Häufigkeit der Zeichen (oder Teilmuster)
- der Position des Musters im Text
- den flankierenden Texten
Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
Cheatsheet der Elemente

Einordnung im Datenlebenszyklus

Antwort

Reguläre Ausdrücke können immer dann von Nutzen sein, wenn Daten nach bestimmten Mustern oder Informationen durchsucht oder verändert werden sollen. Konkret wären folgende Phasen im Datenlebenszyklus denkbar:

Planung: Suche nach geeigneten Daten und Dokumentationen
Erhebung: Überblick und Validierung der Daten
Analyse: Verarbeitung von Textdaten

Hinweis für den Dozenten

Sitzungsaufgabe zu “Manuelle Datenbereinigung”

Übersicht

Fragen

Ziele

Was ist das?

Was zählt zu Forschungsdaten?

Sind das schon Forschungsdaten?

Antwort

Warum teilen?

Warum sollten Forschungsdaten geteilt werden?

Und was hab ich davon?

Möglichkeiten (nachdem sie nachgedacht haben..)

F.A.I.R.-Prinzipien

Und was sind FAIRe Daten?

Dokumentation, Dokumentation, Dokumentation

Mögliche Fragen …

Zusammenfassung

Hauptpunkte

Einordnung im Datenlebenszyklus

Antwort

Übersicht

Fragen

Ziele

Lernmodul “Forschungsdaten suchen & nachnutzen”

Zusammenfassung

Hauptpunkte

Einordnung im Datenlebenszyklus

Antwort

Hinweis für den Dozenten

Übersicht

Fragen

Ziele

Text

Kodierungsprobleme

Antwort

Hinweis

Zeilenumbruch im Text

Hinweis

Zahlen

Ganzzahlen

Text => Ganzzahl => Binär

Binärzahlen

Frage

Hinweis

Antwort

Bits und Bytes

Überlaufproblem

Fließ- oder Gleitkommazahlen

Rundungsfehler beim Rechnen mit Fließkommazahlen

Frage

Antwort

Sprachabhängige Zahlendarstellung

Hinweis

Zeit

Jahr-2038-Problem

Antwort

Farben

Frage

Antwort

Hinweis

Audio

Zusammenfassung

Hauptpunkte

Einordnung im Datenlebenszyklus

Antwort

Hinweis für den Dozenten

Übersicht

Fragen

Ziele

Binär vs. Text

Ist das binär oder textbasiert?

Sie sind dran ..

Antwort

Standard vs. Spezialformat

Nur Text

Formattierter Text

Markdown

Aufgabe

Referenz

.md Dateiendung mit Texteditor verknüpfen

Aufgabe:

`.md` Dateiendung mit Texteditor verknüpfen