Zusammenfassung und Einrichtung
Dies ist ein Kurzüberblick über Datenverarbeitung mit dem Paket pandas und Datenvisualisierung mit plotnine in Python.
Das Material eignet sich für Personen, die bereits Erfahrung mit Python haben und diese Pakete kennenlernen möchten oder ihr Wissen vertiefen wollen. Grundlegende Programmierkenntnisse in Python werden vorausgesetzt!
Im Folgenden werden einige Möglichkeiten eingeführt, wie Datenverarbeitung und -visualisierung mit Python und diesen Paketen durchgeführt werden können.
Übersicht
Fragen
- Wie organisiere ich tabellarische Daten?
- Wann sind Daten “tidy”?
- Wie importiere ich Daten?
- Wie transformiere ich Tabellen?
- Wie verkette ich Datenoperationen?
- Wie bearbeite ich Text in Tabellen?
- Wie führe ich Datensätze zusammen?
- Wie visualisiere ich Daten?
Ziele
- Überblick über die Möglichkeiten der Datenverarbeitung mit
pandas
und Datenvisualisierung mitplotnine
in Python - Nachschlagewerk und praktische Aufgaben für die Verwendung von Funktionen dieser Pakete
Literatur
Als zusätzliche Lektüre und für einen detaillierten Einstieg im Selbststudium empfehlen wir das frei verfügbare Python Data Science Handbook.
Daten
Folgende Dateien werden in den Beispielen verwendet:
- storms-2019-2021.csv - deutsche CSV Datei
- storms-2019-2021.xlsx - Microsoft Excel Datei
- https://raw.githubusercontent.com/tidyverse/dplyr/master/data-raw/storms.csv - Vollständige Datei mit Sturmmessungen von 1975 bis 2022
Voraussetzungen
Folgende Installationen werden benötigt:
- Python 3: möglichst aktuelle Version (erstellt und getestet wurde das Material mit Python 3.12)
-
pandas
Paket: in Windows Powershell bzw. Eingabeaufforderung folgendes Kommando ausführen:pip install pandas
-
plotnine
Paket: in Windows Powershell bzw. Eingabeaufforderung folgendes Kommando ausführen:pip install plotnine
- Entwicklungsumgebung: auch wenn nicht unbedingt nötig, vereinfacht das viele Dinge bei der Programmierung. Wir empfehlen die Open-Source-Software Visual Studio Code