Datenstrukturen


  • Spalten in einem tibble werden auch Variablen (des Datensatzes) genannt.
    • Eine Spalte ist ein vector, d.h. es können nur Werte des gleichen Datentyps enthalten sein.
  • Zeilen in einem tibble werden auch Beobachtungen (des Datensatzes) genannt.
  • Ein Datensatz ist “tidy”,
    • wenn jede Zeile einem Datensatz und jede Spalte einer Variable entspricht.
    • Vereinfacht: wenn man beim Visualisieren der Daten nur jeweils eine Zeile pro Datenpunkt benötigt und keine doppelt verwendet wird.

Datenimport aus Dateien


  • Dateinamen sind Textinformation und müssen in Anführungszeichen gesetzt werden.
  • Pfade können absolut (eher schlecht) oder relativ zum Arbeitsverzeichnis angegeben werden. Letzteres ist portabler und empfohlen.
  • Das Arbeitsverzeichnis kann mit getwd() und setwd() abgefragt und gesetzt werden.
  • In Microsoft Windows können Pfade auch mit Schrägstrichen / statt Backslashes \ geschrieben werden.
  • Achten sie auf die korrekte Kodierung von Textdateien, um Umlaute und Sonderzeichen korrekt einzulesen.
  • Denken sie daran, dass deutsche CSV-Dateien oft Semikolon (;) als Trennzeichen und Komma , als Dezimaltrenner verwenden.
  • Excel-Dateien enthalten i.d.R. mehrere Blätter, die einzeln importiert werden müssen.
  • Zusammenfassung im readr Cheat Sheet

Datenverarbeitung


  • Speichern sie Daten nur in Variablen zwischen, wenn sie diese Daten mehrfach benötigen.
  • Verwenden sie Pipes (|>) um Daten durch eine Reihe von Transformationen zu leiten.
  • Versuchen sie die Datenverarbeitung in kleine, leicht verständliche Schritte zu unterteilen.
  • Vermeiden sie unnötige Schleifen und Schachtelungen, das meiste lässt sich mit Grouping, vektorisierten Operationen und Joins kompakter und eleganter lösen.
  • Auch explizite Elementzugriffe (z.B. df$col) und -operationen können i.d.R. effizient durch dplyr Funktionen ersetzt werden.
  • Zusammenfassungen der Pakete:

Visualisierung


  • ggplot2 benötigt einen data.frame als Eingabe, welcher “tidy” ist (d.h. eine Zeile pro Beobachtung und eine Spalte pro Variable).
  • Das mapping Argument ermöglicht mittels der aes() Funktion die Verknüpfung von Variablen des Datensatzes (d.h. Spaltennamen) mit visuellen Eigenschaften (z.B. x-Achse, Farbe, Größe).
  • geom_* Funktionen fügen dem Plot Schichten hinzu (z.B. Punkte, Linien, Balken).
  • labs() ermöglicht die Anpassung von Diagrammtitel und Achsenbeschriftung.
  • theme_* Funktionen ermöglichen die Anpassung genereller Diagrammformatierungen (z.B. Hintergrundfarben, Schriftarten).
  • Es gibt viele weitere Funktionen und Argumente, um die Darstellung von Diagrammen zu verfeinern (z.B. facet_wrap(), scale_*, coord_*).
  • Diagramme mit ggsave() in beliebigem Dateiformat (PNG, PDF, SVG, ..) speichern.
  • Ausserdem gibt es viele Erweiterungen für ggplot2 (z.B. ggplotly, ggrepel), die zusätzliche Funktionalitäten oder Visualisierungstypen/-diagramme bieten.
  • Zusammenfassung im ggplot2 Cheat Sheet