Zusammenfassung und Einrichtung
Dies ist ein Kurzüberblick über Datenverarbeitung mit
tidyverse
in R.
Das Material eignet sich für R-Nutzer, die bereits Erfahrung mit R
haben und die tidyverse
-Pakete kennenlernen möchten oder
ihr Wissen um diese vertiefen wollen.
Im Folgenden werden einige Möglichkeiten eingeführt, wie
Datenverarbeitung und -visualisierung mit R und dem
tidyverse
Paketen durchgeführt werden können. Hierbei
werden grundlegende Kenntnisse von R vorausgesetzt.
Übersicht
Fragen
- Wie organisiere ich tabellarische Daten? (
tibble
) - Wann sind Daten “tidy”?
- Wie importiere ich Daten? (
readr
,readxl
, …) - Wie transformiere ich Tabellen? (
dplyr
,tidyr
) - Wie baue ich Workflows mit pipes? (
magrittr
) - Wie bearbeite ich Text? (
stringr
) - Wie führe ich mehrere Datensätze zusammen? (
dplyr
) - Wie visualisiere ich Daten? (
ggplot2
)
Ziele
- Überblick über die Möglichkeiten der Datenverarbeitung mit
tidyverse
Paketen - Nachschlagewerk für die Verwendung von
tidyverse
Funktionen
Literatur
Als zusätzliche Lektüre und für einen detaillierten Einstieg im Selbststudium empfehlen wir das frei verfügbare Buch R for Data Science.
Daten
Folgende Dateien werden in den Beispielen verwendet:
- storms-2019-2021.csv - deutsche CSV Datei
- storms-2019-2021.xlsx - Microsoft Excel Datei
Voraussetzungen
Folgende Installationen werden benötigt:
- R version 4.2.0 oder neuer
-
tidyverse
packages viainstall.packages(c("tidyverse", "readxl", "writexl"))
-
tibble
- Cheatsheet - Tabellendatenstruktur -
magrittr
- Cheatsheet - Pipe Operator%>%
-
readr
,readxl
,writexl
- Cheatsheet - Datenimport & -export -
dplyr
- Cheatsheet - Datentransformation & -verarbeitung -
stringr
- Cheatsheet - Textmanipulation -
tidyr
- Cheatsheet - Datenbereinigung -
ggplot2
- Cheatsheet - Visualisierung
-
Alle Codebeispiele können in RStudio ausgeführt werden, wenn zuvor
tidyverse
geladen wurde. Zum Beispiel via
library(tidyverse)
.