Basics Forschungsdatenmanagement: Hauptpunkte

Digitale Daten

Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
- Text via Zeichenencodingstabellen
- Gleitkommazahlen z.B. durch Mantisse und Exponent
- Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
- Farben z.B. durch RGB-Werte
Ganzzahlen können in Binärform gespeichert und verarbeitet werden
- dabei in 2er-Potenzen zerlegt
- Interpretation analog zu Dezimalzahlen (rechts nach links, …)
- Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
- 8 Bit = 1 Byte
- Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
Probleme digitaler Informationsrepräsentation
- Überlaufproblem bei zu großen Zahlen
- Diskretisierung von kontinuierlichen Größen
  - Rundungsfehler bei Gleitkommazahlen
  - Verlust von Genauigkeit bei zu kleinen/großen Zahlen
- Kodierungsprobleme bei Textimport
  - Sprachabhängige Darstellung von Zahlen
  - Unterschiedliche Zeichenencodings
  - Zeilenumbrüche in Textdateien abh. vom Betriebssystem
- Farbmodelle decken nicht den gesamten Farbraum ab

Standardisierte Dateiformate erleichtern den Datenaustausch und die Archivierung von Daten.
- für Rohdaten und Publikation
- für Austausch mit Kollegen und der Öffentlichkeit
- i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
  - Achtung: Kodierung von Zeichen und Zeilenumbrüchen beachten!
- meist “offen” und plattformunabhängig
Proprietäre Dateiformate für internen Gebrauch und spezielle Anwendungen/Software
- ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
- können (für Austausch) in offene Formate konvertiert werden
Wahl des Dateiformats u.a. abhängig von
- Art der Daten (z.B. Text, Bild, Video, Audio, ..)
- Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
- Kompatibilität mit Software und Plattformen
Dateiendungen
- sind nur ein Teil des Namens ohne weitere Auswirkungen
- ermöglichen dem Betriebssystem das richtige Programm zum Öffnen auszuwählen
  - Programmassoziation kann geändert werden!

Dateisysteme unterscheiden sich in ihrer Struktur, Kompatibilität und maximalen Dateigröße.
Betriebssysteme nutzen/unterstützen unterschiedliche Dateisysteme und Pfadnotationen.
Dateinamen und Pfade müssen betriebssystemkonform sein, um Probleme zu vermeiden.
Automatisierung von Dateiverwaltungsschritten spart Zeit und reduziert Fehler.
Skriptsprachen sind ideal für die Automatisierung von Dateiverwaltungsschritten.

Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
Forschungsdaten sollten geteilt werden.
Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten. (Findable, Accessible, Interoperable, Reusable)
Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.

Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
Es gibt fachspezifische und allgemeine Repositorien.
Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
Lizenzen müssen die Wiederverwendung erlauben.
Korrekte Zitation ist zentral in wissenschaftlicher Praxis.

Jeder Computer ist über seine IP-Adresse (im Internet) identifizierbar.
Zertifikate bestätigen die Identität von Webservern.
Zu versendende Daten werden in Pakete aufgeteilt (z.B. via TCP) und über das Internetprotokoll (IP) verschickt.
Datenpakete zwischen Computern werden “von Knoten zu Knoten” weitergeleitet.
Datenpakete können von lokalen Routern, ISPs, WLAN-Anbietern, … eingesehen werden.
HTTPS verschlüsselt den gesendeten Inhalt der Datenpakete (Metadaten wie Ziel-IP etc. nicht).
VPN schützt vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter.
URLs beschreiben das Zieldokument inklusive des Namens des Webservers etc.
Webservernamen werden durch DNS-Server in IP-Adressen aufgelöst

Browser sind komplexe Programme, die viele Funktionen und Dienste integrieren, um Benutzern das Surfen im Internet zu ermöglichen.
Webseiten bestehen aus HTML, CSS und JavaScript, welche die Struktur, das Design und die Interaktivität der Seiten definieren.
Cookies speichern webseitenspezifisch Informationen auf dem Gerät des Benutzers, um Einstellungen und Präferenzen zu speichern.
Mit Hilfe von Cookies, JavaScript und anderen Technologien können Webseiten Benutzerdaten sammeln und verarbeiten.
Suchmaschinen sind spezialisierte Dienste, die Benutzern helfen, Informationen im Internet zu finden, indem sie relevante Dokumente zu einer Suchanfrage liefern.
Einseitige Informationen (durch Personalisierung), Datenschutz, Zensur und Manipulation sind Hauptrisiken und Probleme bei der Nutzung des Internets.

Verschlüsselung ist ein zentrales Konzept zum Schutz sensibler Daten.
Symmetrische und asymmetrische Verschlüsselung sind die beiden Hauptarten der Datenverschlüsselung.
Public-Key-Verschlüsselung ermöglicht eine sichere Kommunikation, ohne dass ein geheimer Schlüssel vorher ausgetauscht werden muss.
Hash-Funktionen sind wichtig für die Integrität von Daten.
Die Verschlüsselung von Dateien und Datenträgern ist wichtig, um sensible Daten zu schützen.
Quantencomputer könnten die Sicherheit aktueller Verschlüsselungsverfahren in Frage stellen, aber symmetrische Verfahren wie AES-256 gelten als quantensicher.
Passwortmanager helfen, Passwörter sicher zu speichern und zu verwalten und vor allem starke Passwörter zu verwenden.

Datenverarbeitung sollte Reproduzierbarkeit und Nachvollziehbarkeit gewährleisten
Automatisierung, Skalierbarkeit und Portabilität sind weitere wichtige Ziele
Skriptsprachen (z.B. Python, R, Bash) ermöglichen automatisierte und dokumentierte Datenverarbeitung
Workflow-Systeme (z.B. Galaxy, Snakemake) helfen bei der Verwaltung und Ausführung komplexer Datenverarbeitungsprozesse
Workflows können gespeichert/archiviert, geteilt und wiederverwendet werden
Portierbarkeit und Skalierbarkeit sind entscheidend für die Nutzung in verschiedenen Umgebungen und bei großen Datenmengen

Reguläre Ausdrucke kodieren Textsuchmuster mit Variabilität in
- den vorkommenden Zeichen (positionsspezifisch)
- der Häufigkeit der Zeichen (oder Teilmuster)
- der Position des Musters im Text
- den flankierenden Texten
Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
Cheatsheet der Elemente

Text-basierte Datenrepräsentation kann zu Problemen beim Import führen
- Häufige Probleme: Zeichenkodierung, Zeilenumbrüche, Trennzeichen
Vor dem Import immer Rohdaten inspizieren (Texteditor!)
Relative Pfade in Skripten erhöhen Wiederverwendbarkeit
Logische Ordnerstruktur erleichtert Datenorganisation und Automatisierung