Beta
Diese Lektion befindet sich in der Beta-Phase, was bedeutet, dass sie bereit für den Unterricht durch Dozenten außerhalb des ursprünglichen Autorenteams ist.
Dateinamen sind Textinformation und müssen in Anführungszeichen
gesetzt werden.
Pfade können absolut oder relativ zum Arbeitsverzeichnis angegeben
werden. Letzteres ist portabler und empfohlen.
Unter Microsoft Windows können Pfade in Pyhton auch mit
Schrägstrichen / statt Backslashes \
geschrieben werden.
Achten sie auf die Angabe der korrekten Kodierung von Textdateien,
um Umlaute und Sonderzeichen korrekt einzulesen.
Denken sie daran, dass deutsche CSV-Dateien oft Semikolon
(;) als Spaltentrennzeichen und Komma , als
Dezimaltrenner verwenden. Auch Excel verwendet für den CSV-Export das
Semikolon als Spaltentrennzeichen.
Excel-Dateien können mehrere Blätter (sheets) enthalten,
die einzeln importiert werden müssen.
In pandas lassen sich sowohl ganze Zeilen, ganze Spalten, oder
einzelne Zellbereich(e) bequem manipulieren
Oft ist es nötig, die Tabellengestalt zu verändern, etwa von breit
zu schmal oder umgekehrt, um Analysen und Transformationen einfacher
durchführen zu können
Versuchen sie die Datenverarbeitung in kleine, leicht verständliche
Schritte zu unterteilen.
Wenn man pandas verwendet, vermeidet man Schleifen und
Schachtelungen. Solche Manipulationen macht man in pandas mit dafür
geeigneten Funktionsaufrufen. Das meiste lässt sich mit Gruppieren,
Aggregieren und Spaltenmanipulation erreichen.
Das pandas
Cheatsheet kann helfen, die Funktionen und Methoden von Pandas zu
verstehen und zu nutzen.
plotnine benötigt einen pandas Dataframe als Eingabe,
der “tidy” ist (d.h. eine Zeile pro Beobachtung und eine Spalte pro
Variable).
Das mapping Argument ermöglicht mittels der
aes() Funktion die Verknüpfung von Variablen des
Datensatzes (d.h. Spaltennamen) mit visuellen Eigenschaften (z.B.
x-Achse, Farbe, Größe).