Zusammenfassung und Einrichtung

Dies ist ein Kurzüberblick über Datenverarbeitung mit dem Paket pandas und Datenvisualisierung mit plotnine in Python.

Das Material eignet sich für Personen, die bereits Erfahrung mit Python haben und diese Pakete kennenlernen möchten oder ihr Wissen vertiefen wollen. Grundlegende Programmierkenntnisse in Python werden vorausgesetzt!

Im Folgenden werden einige Möglichkeiten eingeführt, wie Datenverarbeitung und -visualisierung mit Python und diesen Paketen durchgeführt werden können.

Übersicht

Fragen

  • Wie organisiere ich tabellarische Daten?
  • Wann sind Daten “tidy”?
  • Wie importiere ich Daten?
  • Wie transformiere ich Tabellen?
  • Wie verkette ich Datenoperationen?
  • Wie bearbeite ich Text in Tabellen?
  • Wie führe ich Datensätze zusammen?
  • Wie visualisiere ich Daten?

Ziele

  • Überblick über die Möglichkeiten der Datenverarbeitung mit pandas und Datenvisualisierung mit plotnine in Python
  • Nachschlagewerk und praktische Aufgaben für die Verwendung von Funktionen dieser Pakete

Literatur


Als zusätzliche Lektüre und für einen detaillierten Einstieg im Selbststudium empfehlen wir das frei verfügbare Python Data Science Handbook.

Daten


Folgende Dateien werden in den Beispielen verwendet:

Voraussetzungen


Folgende Installationen werden benötigt:

  • Python 3: möglichst aktuelle Version (erstellt und getestet wurde das Material mit Python 3.12)
  • pandas Paket: in Windows Powershell bzw. Eingabeaufforderung folgendes Kommando ausführen: pip install pandas
  • plotnine Paket: in Windows Powershell bzw. Eingabeaufforderung folgendes Kommando ausführen: pip install plotnine
  • Entwicklungsumgebung: auch wenn nicht unbedingt nötig, vereinfacht das viele Dinge bei der Programmierung. Wir empfehlen die Open-Source-Software Visual Studio Code