Zusammenfassung und Einrichtung
Dies ist ein Kurzüberblick über Datenverarbeitung mit
tidyverse in R.
Das Material eignet sich für R-Nutzer, die bereits Erfahrung mit R
haben und die tidyverse-Pakete kennenlernen möchten oder
ihr Wissen um diese vertiefen wollen.
Im Folgenden werden einige Möglichkeiten eingeführt, wie
Datenverarbeitung und -visualisierung mit R und dem
tidyverse Paketen durchgeführt werden können. Hierbei
werden grundlegende Kenntnisse von R vorausgesetzt.
Übersicht
Fragen
- Wie organisiere ich tabellarische Daten? (
tibble) - Wann sind Daten “tidy”?
- Wie importiere ich Daten? (
readr,readxl, …) - Wie transformiere ich Tabellen? (
dplyr,tidyr) - Wie baue ich Workflows mit pipes? (
magrittr) - Wie bearbeite ich Text? (
stringr) - Wie führe ich mehrere Datensätze zusammen? (
dplyr) - Wie visualisiere ich Daten? (
ggplot2)
Ziele
- Überblick über die Möglichkeiten der Datenverarbeitung mit
tidyversePaketen - Nachschlagewerk für die Verwendung von
tidyverseFunktionen
Literatur
Als zusätzliche Lektüre und für einen detaillierten Einstieg im Selbststudium empfehlen wir das frei verfügbare Buch R for Data Science.
Daten
Folgende Dateien werden in den Beispielen verwendet:
- storms-2019-2021.csv - deutsche CSV Datei
- storms-2019-2021.xlsx - Microsoft Excel Datei
Voraussetzungen
Folgende Installationen werden benötigt:
- R version 4.2.0 oder neuer
-
tidyversepackages viainstall.packages(c("tidyverse", "readxl", "writexl"))-
tibble- Cheatsheet - Tabellendatenstruktur -
magrittr- Cheatsheet - Pipe Operator%>% -
readr,readxl,writexl- Cheatsheet - Datenimport & -export -
dplyr- Cheatsheet - Datentransformation & -verarbeitung -
stringr- Cheatsheet - Textmanipulation -
tidyr- Cheatsheet - Datenbereinigung -
ggplot2- Cheatsheet - Visualisierung
-
Alle Codebeispiele können in RStudio ausgeführt werden, wenn zuvor
tidyverse geladen wurde. Zum Beispiel via
library(tidyverse).