Forschungsdaten
- Forschungsdaten sind nicht nur Rohdaten, sondern auch Metadaten, Dokumentation und Software.
- Forschungsdaten sollten geteilt werden.
- Die F.A.I.R.-Prinzipien unterstützen das Teilen von Daten.
- Dokumentation ist zentral für die Nachvollziehbarkeit und Wiederverwendbarkeit von Daten.
Finden und Zitieren
- Forschungsdaten sind in speziellen Repositorien und Datenbanken abgelegt, i.d.R. öffentlich zugänglich.
- Es gibt fachspezifische und allgemeine Repositorien.
- Aufgrund der Vielzahl an Repositorien und Datenbanken ist die Suche nach Forschungsdaten nicht immer einfach und verlangt eine ausdauernde Recherche.
- Vorliegende Datenformate und vorhandene Software(kenntnisse) müssen geprüft werden, um eine Wiederverwendung zu ermöglichen.
- Lizenzen müssen die Wiederverwendung erlauben.
- Korrekte Zitation ist zentral in wissenschaftlicher Praxis.
Digitale DatenHinweis
- Jedwede Information wird i.d.R. durch Ganzzahlen repräsentiert
- Text via Zeichenencodingstabellen
- Gleitkommazahlen z.B. durch Mantisse und Exponent
- Zeit z.B. als Anzahl von Sekunden seit einem festgelegten Zeitpunkt
- Farben z.B. durch RGB-Werte
- Ganzzahlen können in Binärform gespeichert und verarbeitet werden
- dabei in 2er-Potenzen zerlegt
- Interpretation analog zu Dezimalzahlen (rechts nach links, …)
- Bit = eine “Ziffer” einer Binärzahl (0 oder 1)
- 8 Bit = 1 Byte
- Anzahl der Bits bestimmt die maximal darstellbare Zahl (Überlaufproblem)
- Probleme digitaler Informationsrepräsentation
- Überlaufproblem bei zu großen Zahlen
- Diskretisierung von kontinuierlichen Größen
- Rundungsfehler bei Gleitkommazahlen
- Verlust von Genauigkeit bei zu kleinen/großen Zahlen
- Kodierungsprobleme bei Textimport
- Sprachabhängige Darstellung von Zahlen
- Unterschiedliche Zeichenencodings
Dateiformate
- Standardisierte Dateiformate erleichtern den Datenaustausch und die
Archivierung von Daten.
- für Rohdaten und Publikation
- für Austausch mit Kollegen und der Öffentlichkeit
- i.d.R. textbasierte Formate (z.B. CSV, JSON, XML)
- Proprietäre Dateiformate für internen Gebrauch und spezielle
Anwendungen/Software
- ermöglichen i.d.R. umfangreichere Informationsspeicherung und -darstellung
- können (für Austausch) in offene Formate konvertiert werden
- Wahl des Dateiformats u.a. abhängig von
- Art der Daten (z.B. Text, Bild, Video, Audio, ..)
- Verwendungszweck (z.B. Analyse, Publikation, Archivierung)
- Kompatibilität mit Software und Plattformen
- Dateiendungen
- sind nur ein Teil des Namens ohne weitere Auswirkungen
- ermöglichen dem Betriebssystem das richtige Programm zum Öffnen
auszuwählen
- Programmassoziation kann geändert werden!
Reguläre Ausdrücke
- Reguläre Ausdrucke kodieren Textsuchmuster mit
Variabilität in
- den vorkommenden Zeichen (positionsspezifisch)
- der Häufigkeit der Zeichen (oder Teilmuster)
- der Position des Musters im Text
- den flankierenden Texten
- Abwägung zwischen allgemein und spezifisch ist wichtig, je nach Einsatzzweck
- Cheatsheet der Elemente