Digitale Daten


  • Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
    • Text via Zeichenencodingstabellen
    • Gleitkommazahlen z.B. durch Mantisse und Exponent
    • Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
    • Farben z.B. durch RGB-Werte
  • Ganzzahlen können in Binärform gespeichert und verarbeitet werden
    • dabei in 2er-Potenzen zerlegt
    • Interpretation analog zu Dezimalzahlen (rechts nach links, …)
    • Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
    • 8 Bit = 1 Byte
    • Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
  • Probleme digitaler Informationsrepräsentation
    • Überlaufproblem bei zu großen Zahlen
    • Diskretisierung von kontinuierlichen Größen
      • Rundungsfehler bei Gleitkommazahlen
      • Verlust von Genauigkeit bei zu kleinen/großen Zahlen
    • Kodierungsprobleme bei Textimport
      • Sprachabhängige Darstellung von Zahlen
      • Unterschiedliche Zeichenencodings
      • Zeilenumbrüche in Textdateien abh. vom Betriebssystem
    • Farbmodelle decken nicht den gesamten Farbraum ab

Dateiformate


  • Standardisierte Dateiformate erleichtern den Datenaustausch und die Archivierung von Daten.
    • für Rohdaten und Publikation
    • für Austausch mit Kollegen und der Öffentlichkeit
    • i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
      • Achtung: Kodierung von Zeichen und Zeilenumbrüchen beachten!
    • meist “offen” und plattformunabhängig
  • Proprietäre Dateiformate für internen Gebrauch und spezielle Anwendungen/Software
    • ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
    • können (für Austausch) in offene Formate konvertiert werden
  • Wahl des Dateiformats u.a. abhängig von
    • Art der Daten (z.B. Text, Bild, Video, Audio, ..)
    • Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
    • Kompatibilität mit Software und Plattformen
  • Dateiendungen
    • sind nur ein Teil des Namens ohne weitere Auswirkungen
    • ermöglichen dem Betriebssystem das richtige Programm zum Öffnen auszuwählen
      • Programmassoziation kann geändert werden!

Dateiverwaltung


  • Dateisysteme unterscheiden sich in ihrer Struktur, Kompatibilität und maximalen Dateigröße.
  • Betriebssysteme nutzen/unterstützen unterschiedliche Dateisysteme und Pfadnotationen.
  • Dateinamen und Pfade müssen betriebssystemkonform sein, um Probleme zu vermeiden.
  • Automatisierung von Dateiverwaltungsschritten spart Zeit und reduziert Fehler.
  • Skriptsprachen sind ideal für die Automatisierung von Dateiverwaltungsschritten.

Forschungsdaten


  • Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
  • Forschungsdaten sollten geteilt werden.
  • Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten. (Findable, Accessible, Interoperable, Reusable)
  • Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.

Finden und Zitieren


  • Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
  • Es gibt fachspezifische und allgemeine Repositorien.
  • Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
  • Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
  • Lizenzen müssen die Wiederverwendung erlauben.
  • Korrekte Zitation ist zentral in wissenschaftlicher Praxis.

Netzwerke


  • Jeder Computer ist über seine IP-Adresse (im Internet) identifizierbar.
  • Zertifikate bestätigen die Identität von Webservern.
  • Zu versendende Daten werden in Pakete aufgeteilt (z.B. via TCP) und über das Internetprotokoll (IP) verschickt.
  • Datenpakete zwischen Computern werden “von Knoten zu Knoten” weitergeleitet.
  • Datenpakete können von lokalen Routern, ISPs, WLAN-Anbietern, … eingesehen werden.
  • HTTPS verschlüsselt den gesendeten Inhalt der Datenpakete (Metadaten wie Ziel-IP etc. nicht).
  • VPN schützt vor lokalen Schnüfflern, aber nicht vor dem VPN-Anbieter.
  • URLs beschreiben das Zieldokument inklusive des Namens des Webservers etc.
  • Webservernamen werden durch DNS-Server in IP-Adressen aufgelöst

Browser


  • Browser sind komplexe Programme, die viele Funktionen und Dienste integrieren, um Benutzern das Surfen im Internet zu ermöglichen.
  • Webseiten bestehen aus HTML, CSS und JavaScript, welche die Struktur, das Design und die Interaktivität der Seiten definieren.
  • Cookies speichern webseitenspezifisch Informationen auf dem Gerät des Benutzers, um Einstellungen und Präferenzen zu speichern.
  • Mit Hilfe von Cookies, JavaScript und anderen Technologien können Webseiten Benutzerdaten sammeln und verarbeiten.
  • Suchmaschinen sind spezialisierte Dienste, die Benutzern helfen, Informationen im Internet zu finden, indem sie relevante Dokumente zu einer Suchanfrage liefern.
  • Einseitige Informationen (durch Personalisierung), Datenschutz, Zensur und Manipulation sind Hauptrisiken und Probleme bei der Nutzung des Internets.

Verschlüsselung


  • Verschlüsselung ist ein zentrales Konzept zum Schutz sensibler Daten.
  • Symmetrische und asymmetrische Verschlüsselung sind die beiden Hauptarten der Datenverschlüsselung.
  • Public-Key-Verschlüsselung ermöglicht eine sichere Kommunikation, ohne dass ein geheimer Schlüssel vorher ausgetauscht werden muss.
  • Hash-Funktionen sind wichtig für die Integrität von Daten.
  • Die Verschlüsselung von Dateien und Datenträgern ist wichtig, um sensible Daten zu schützen.
  • Quantencomputer könnten die Sicherheit aktueller Verschlüsselungsverfahren in Frage stellen, aber symmetrische Verfahren wie AES-256 gelten als quantensicher.
  • Passwortmanager helfen, Passwörter sicher zu speichern und zu verwalten und vor allem starke Passwörter zu verwenden.

Datenverarbeitung


  • Datenverarbeitung sollte Reproduzierbarkeit und Nachvollziehbarkeit gewährleisten
  • Automatisierung, Skalierbarkeit und Portabilität sind weitere wichtige Ziele
  • Skriptsprachen (z.B. Python, R, Bash) ermöglichen automatisierte und dokumentierte Datenverarbeitung
  • Workflow-Systeme (z.B. Galaxy, Snakemake) helfen bei der Verwaltung und Ausführung komplexer Datenverarbeitungsprozesse
  • Workflows können gespeichert/archiviert, geteilt und wiederverwendet werden
  • Portierbarkeit und Skalierbarkeit sind entscheidend für die Nutzung in verschiedenen Umgebungen und bei großen Datenmengen

Reguläre Ausdrücke


  • Reguläre Ausdrucke kodieren Textsuchmuster mit Variabilität in
    • den vorkommenden Zeichen (positionsspezifisch)
    • der Häufigkeit der Zeichen (oder Teilmuster)
    • der Position des Musters im Text
    • den flankierenden Texten
  • Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
  • Cheatsheet der Elemente

Datenimport


  • Text-basierte Datenrepräsentation kann zu Problemen beim Import führen
    • Häufige Probleme: Zeichenkodierung, Zeilenumbrüche, Trennzeichen
  • Vor dem Import immer Rohdaten inspizieren (Texteditor!)
  • Relative Pfade in Skripten erhöhen Wiederverwendbarkeit
  • Logische Ordnerstruktur erleichtert Datenorganisation und Automatisierung