Forschungsdaten


  • Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
  • Forschungsdaten sollten geteilt werden.
  • Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten.
  • Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.

Finden und Zitieren


  • Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
  • Es gibt fachspezifische und allgemeine Repositorien.
  • Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
  • Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
  • Lizenzen müssen die Wiederverwendung erlauben.
  • Korrekte Zitation ist zentral in wissenschaftlicher Praxis.

Digitale DatenHinweis


  • Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
    • Text via Zeichenencodingstabellen
    • Gleitkommazahlen z.B. durch Mantisse und Exponent
    • Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
    • Farben z.B. durch RGB-Werte
  • Ganzzahlen können in Binärform gespeichert und verarbeitet werden
    • dabei in 2er-Potenzen zerlegt
    • Interpretation analog zu Dezimalzahlen (rechts nach links, …)
    • Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
    • 8 Bit = 1 Byte
    • Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
  • Probleme digitaler Informationsrepräsentation
    • Überlaufproblem bei zu großen Zahlen
    • Diskretisierung von kontinuierlichen Größen
      • Rundungsfehler bei Gleitkommazahlen
      • Verlust von Genauigkeit bei zu kleinen/großen Zahlen
    • Kodierungsprobleme bei Textimport
      • Sprachabhängige Darstellung von Zahlen
      • Unterschiedliche Zeichenencodings

Dateiformate


  • Standardisierte Dateiformate erleichtern den Datenaustausch und die Archivierung von Daten.
    • für Rohdaten und Publikation
    • für Austausch mit Kollegen und der Öffentlichkeit
    • i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
  • Proprietäre Dateiformate für internen Gebrauch und spezielle Anwendungen/Software
    • ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
    • können (für Austausch) in offene Formate konvertiert werden
  • Wahl des Dateiformats u.a. abhängig von
    • Art der Daten (z.B. Text, Bild, Video, Audio, ..)
    • Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
    • Kompatibilität mit Software und Plattformen
  • Dateiendungen
    • sind nur ein Teil des Namens ohne weitere Auswirkungen
    • ermöglichen dem Betriebssystem das richtige Programm zum Öffnen auszuwählen
      • Programmassoziation kann geändert werden!

Reguläre Ausdrücke


  • Reguläre Ausdrucke kodieren Textsuchmuster mit Variabilität in
    • den vorkommenden Zeichen (positionsspezifisch)
    • der Häufigkeit der Zeichen (oder Teilmuster)
    • der Position des Musters im Text
    • den flankierenden Texten
  • Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
  • Cheatsheet der Elemente