Vorbereitungen
In diesem Projekt ist meine Quelle eine Auswertung der Umsatzzahlen eines Unternehmens aus Deutschland. Diese Daten beschreiben die monatlichen Umsätze seit dem 01.03.2004 bis zum 01.07.2023.
Als Tools nutze ich die Google Colab Console (Link zur Console). Dies ermöglicht es mir außerhalb meiner Entwicklungsumgebung Code schnell umzusetzen. Hier wird mit so genannten „Notebooks“ gearbeitet.
Des Weiteren nutze ich die Sprache python für die Auswertungen. Die speziellen Bibliotheken die ich verwende sind pandas und numpy
Die einzulesenden Daten liegen mir bereits als csv.-Datei vor. Den gesamten Prozess der Datenbereinigung habe ich bereits vorab durchgeführt, da es mir in diesem Post darum geht, Euch ein Gefühl für das Vorgehen zu entwickeln.
Ziele
Als erstes möchte ich einen Überblick über die Daten erhalten und darauf aufbauend erste Analysen und Konzepte vorstellen.
Beginnen wir….
Zu erst laden wir 2 Bibliotheken in unser Notebook. Die erfolgt mit den Zeilen
import pandas as pd
import numpy as np
Mit der Zeile:
df = pd.read_csv("/content/drive/MyDrive/data/monthly_data.csv")
importiere ich die csv-Datei.
„df“ ist eine gängige Bezeichnung für dataframe. „pd“ verweist auf die Bibliothek pandas (des wegen das „as pd“).
„read_csv“ ist eine sog. Methode um eine csv-Datei zu lesen. In den Klammern steht der relative Pfad wo meine csv-Datei abgelegt ist.
Nun ist die Datei eingelesen. Mit der Zeile
df.head()
lasse ich mir die ersten fünf Zeile des dataframes anzeigen. Die gibt mir einen ersten Eindruck wie die Daten aussehen bzw. beschaffen sind. In komplett sieht dies dann so aus. Der Kasten, welcher mit In[ ]. bezeichnet ist beinhaltet den Code, den ich oben erklärt habe. Folglich ist der Kasten, welcher mit Out[ ] bezeichnet ist, dass was ich mir mit df.head() mit ausgeben lassen habe.
Was sehe ich da eigentlich?
Im Grunde ist die eine Tabelle mit 3 Spalten und n- Zeilen, wobei ich mir nur die ersten 5 habe anzeigen lassen. In Python wird bei der 0 angefangen zu zählen.
Die drei spalten haben die Namen „Unnamed:0“, „date“, „sales“.
Die erste Spalte weist darauf hin, dass der Datenbereinigungsprozess nicht ganz so glatt lief, wie erwartet. Diese werden wir in den nächsten Schritten „bereinigen“.
Die Spalte „date“ enthält Daten (Plural von Datum) im Format YYYY-MM-DD und die Spalte „sales“ enthält nicht ganzzahlige Werte.
Bitte beachtet, dass sowohl die Spalte „date“ und „sales“ im amerikanischen Format geschrieben sind. Das heißt für mich immer, dass ich dies irgendwann auf das europäische Format konvertieren muss.
Um festzustellen wir groß die gesamte Datendatei ist, nutze ich den Befehl:
df.shape
„df“ bezieht sich wie gewohnt auf das dataframe aus dem ersten Codeblock. Die Methode „shape“ gibt die Größe der gesamten Datenmenge zurück. In diesem Fall (233,3). Man liest dies so, 233 Zeilen (rows) und 3 Spalten (columns). Im der Block sieht nun wie folgt aus:
So, der erste Schritt ist geschafft und ich habe mir einen ersten Überblick über die Daten verschafft.
Weiter geht es! – Wie sehen die Daten graphisch aus?
Nach dem ich die Daten nun eingelesen habe, möchte mir diese einmal anschauen.
Dafür gibt es in pyhton zahlreiche Bibliothek. Ich nutze gern matplotlib. (Hier der Link zur offiziellen Seite von matplotlib https://matplotlib.org/stable/)
Zu erst muss diese Bibliothek importiert werden. Dies wird gemeinsam mit numpy und pandas importiert:
import pandas as pd
import numpy as np
import matplotlib as plt
df = pd.read_csv("/content/drive/MyDrive/data/monthly_data.csv")
In der Variable „df“ sind nun unsere Daten wieder als dataframe gespeichtert. Mit der folgenden Befehlskette, kannst ich mir die Daten graphisch darstellen lassen.
df.plot(x="date", y="sales")
df.plot ist die Funkion, welche die Aufgabe des plotten übernimmt. Um die Achsen zur definieren gebe ich die Argumente (x =“date“ und y= „sales“) mit. Dies führt dazu, dass für die x-Achse die Spalte „date“ und für die y-Achse die Spalte „sales“ herangezogen wird.
So sieht der Codeblock im gesamten aus:
Ich sehe und erkenne hier zwar etwas aber, das sieht nicht schön aus. Dies genügt jedoch für einen ersten Überblick.
Wie geht es weiter?
Ich werden, nicht wie geplant alles in diesem einem Post vorstellen. Zum besseren Verständnis für uns alle, werde ich subpost erstellten, welche auf diesen Daten basieren.
Wenn ich neue Daten nutze, werde ich ein neues Projekt beginnen.
Als nächstes werde ich mit mit den Mittelwerten in dieser Zeitreihen beschäftigen. Dies dann, wie eben angekündigt im Subpost 1.1 – Mittelwerte.
Bis dahin
der fux
1 thought on “Projekt 1”