Aufgabe zu "Manuelle Datenbereinigung"
Zuletzt aktualisiert am 2025-09-04 | Diese Seite bearbeiten
Manuelle Datenbereinigung
Im Folgendenen soll eine manuelle Datenbereinigung durchgeführt und dokumentiert werden. Manuelle Bearbeitung bietet sich an, wenn die Daten in einem Format vorliegen, das nicht automatisiert bereinigt werden kann, oder wenn die Datenqualität so schlecht ist, dass eine automatisierte Bereinigung nicht sinnvoll ist. Ausserdem ist man manchmal bei kleinen Datensätzen manuell schneller als mit einem automatisierten Prozess.
ABER: Manuelle Datenbereinigung ist …
- … fehleranfällig und sollte nur in Ausnahmefällen durchgeführt werden.
- … nicht reproduzierbar und sollte deshalb detailliert dokumentiert werden.
- … zeitaufwändig und nicht skalierbar und sollte nur bei kleinen Datensätzen durchgeführt werden.
Ziel
Konkret wollen wir die Daten für die Mietpreisentwicklung in Baden-Württemberg extrahieren vom Statistischen Landesamt Baden-Württemberg extrahieren und bereinigen. Die Daten wurden 2024 vom destatis Server heruntergeladen, liegen jedoch in einem Format vor, das nicht direkt weiterverwendet werden kann.
-
mietpreisindex-bw.komplett.csv
(Quelle: Statistisches Landesamt Baden-Württemberg - Zugriff 13.09.2024; Aktuelle Daten via Tabelle 61111_0003 in Genesis-Online)
Wir sind allerdings nur an Teilen der Daten interessiert, konkret:
- Verbraucherpreisindex für Baden-Württemberg (Spalte 2)
- nur die Jahresdurchschnitswerte (Zeilen mit “JD XXXX”)
- nur die Werte für die Jahre 2000 bis 2023
Aufgabe 1 - Reguläre Ausdrücke
- Speichern sie die oben verlinkte Datei
mietpreisindex-bw.komplett.csv
in ihrem Abgabeordner
Zum Erstellen und Testen von Regulären Ausdrücken empfehlen wir einen der folgenden Schritte:
Ersinnen sie REGULÄRE AUSDRÜCKE für die folgenden Aufgaben und dokumentieren sie diese in ihrem Abgabeordner.
- Dateiname:
mietpreisindex-bw.komplett.regex.md
- Ausdruck selektiert ausschliesslich die Überschrift
Jahr/Monat;Verbraucherpreisindex
- Ausdruck selektiert alle Datenzeilen für Einzelmonate
- erster Treffer sollte
Januar;117,4;109,3;+3,0;108,9;+2,7;109,8;+2,8
sein - letzter Treffer is
Dezember;27,3;23,8;–;-;–;-;–
- Versuchen sie den Ausdruck möglichst klein zu halten.
- Finden sie mindestens 2 unterschiedliche Ausdrücke für diese Aufgabe
- erster Treffer sollte
- Ausdruck selektiert AUSSCHLIESSLICH die gewünschten Daten (siehe
Ziel)
- sollten 24 Treffer/Zeilen sein
- der erste Match sollte
JD 2023;116,4
sein
- Erweiterung von 3., sodass nur die Jahreszahl und der Wert
selektiert werden
- der erste Match sollte
2023;116,4
sein - Tipp: lookaround assertions verwenden
- der erste Match sollte
- Kombination aus 1. und 4. um die gewünschten Daten inklusive Überschrift zu selektieren
Nun wollen wir den Regulären Ausdruck aus 5. verwenden, um die Daten
zu extrahieren. In der Linux/Unix Kommandozeile gibt es hierfür das Tool
grep
, welches reguläre Ausdrücke unterstützt. Im Folgenden
wollen wir eine Online-Version von grep
verwenden.
- Öffnen sie die Webseite Grep Online
- Kopieren sie ihren Regulären Ausdruck aus 5. in das Feld “Input Regular Expression”
- Kopieren sie den Inhalt der Datei
mietpreisindex-bw.komplett.csv
in das Feld “Enter Text” - Klicken “Only Matching”
- Starten sie die Extraktion via “Process text”
- Kopieren sie das Ergebnis in ihre Markdowndatei
- Verwenden sie einen Codeblock im Markdown, um das Ergebnis einzufügen
Aufgabe 2 - Copy-Paste-Edit
- Speichern sie die Datei
mietpreisindex-bw.jahresdurchschnitt.csv
in ihrem Abgabeordner- Diese Datei enthält die Jahresdurchschnittszeilen aus der kompletten Datei von oben
Nun wollen wir die Daten manuell bereinigen, um nur die zwei Zielspalten zu behalten und die Jahreszahlen zu extrahieren. Ausserdem soll die Datei am Ende im amerikanischen CSV Format (Punkt als Dezimaltrenner, Komma als Spaltentrenner) vorliegen.
- Öffnen sie die Datei in einem TEXTEDITOR (nicht Excel oder ähnliches)
- Bereinigen sie die Daten manuell (ohne reguläre Ausdrücke etc.)
- Verwenden sie vertikale Markierung (MacOs), um spaltenweise zu markieren und zu löschen
- Verwenden sie “Suchen und Ersetzen”, um die Spaltentrenner und Dezimaltrennzeichen zu korrigieren
- Reduzieren sie die erste Spalte auf die Jahreszahlen (vertikale Markierung oder Suchen-und-Ersetzen)
- Fügen sie eine Überschriftszeile
Jahr,Verbraucherpreisindex
ein - Reduzieren sie den Datensatz auf die Jahre 2000-2023
- Speichern sie die Datei in ihrem Ablageordner
Und damit das auch nachvollziehbar bleibt:
- Dokumentieren sie die Herkunft und den Inhalt der Datei in einer
Markdown-Datei
- Dateiname:
mietpreisindex-bw.jahresdurchschnitt.README.md
- Denken sie an eine komplette Onlinequellen- und Editierbeschreibung!
- Dateiname: