Skip to content

data-fux

Power BI aus dem Leben des data-fux

Menu
  • Startseite
  • Projekte
    • Kundensegmentierung – Projekt 2
    • Projekt 1
      • Projekt 1.1 Teil1
      • Projekt 1.1 Teil2
  • Statistik und mehr
    • Grundlagen
    • zentrale Tendenz
    • Modus
  • Python und mehr
  • Tools
  • der fux
    • Cookie-Richtlinie (EU)
    • Privacy Policy
Menu

Projekt 1

Posted on 25. September 20232. Oktober 2023 by der fux

Vorbereitungen

In diesem Projekt ist meine Quelle eine Auswertung der Umsatzzahlen eines Unternehmens aus Deutschland. Diese Daten beschreiben die monatlichen Umsätze seit dem 01.03.2004 bis zum 01.07.2023.
Als Tools nutze ich die Google Colab Console (Link zur Console). Dies ermöglicht es mir außerhalb meiner Entwicklungsumgebung Code schnell umzusetzen. Hier wird mit so genannten „Notebooks“ gearbeitet.

Des Weiteren nutze ich die Sprache python für die Auswertungen. Die speziellen Bibliotheken die ich verwende sind pandas und numpy

Die einzulesenden Daten liegen mir bereits als csv.-Datei vor. Den gesamten Prozess der Datenbereinigung habe ich bereits vorab durchgeführt, da es mir in diesem Post darum geht, Euch ein Gefühl für das Vorgehen zu entwickeln.

Ziele

Als erstes möchte ich einen Überblick über die Daten erhalten und darauf aufbauend erste Analysen und Konzepte vorstellen.

Beginnen wir….

Zu erst laden wir 2 Bibliotheken in unser Notebook. Die erfolgt mit den Zeilen

import pandas as pd
import numpy as np

Mit der Zeile:

df = pd.read_csv("/content/drive/MyDrive/data/monthly_data.csv")

importiere ich die csv-Datei.

„df“ ist eine gängige Bezeichnung für dataframe. „pd“ verweist auf die Bibliothek pandas (des wegen das „as pd“).

„read_csv“ ist eine sog. Methode um eine csv-Datei zu lesen. In den Klammern steht der relative Pfad wo meine csv-Datei abgelegt ist.

Nun ist die Datei eingelesen. Mit der Zeile

df.head()

lasse ich mir die ersten fünf Zeile des dataframes anzeigen. Die gibt mir einen ersten Eindruck wie die Daten aussehen bzw. beschaffen sind. In komplett sieht dies dann so aus. Der Kasten, welcher mit In[ ]. bezeichnet ist beinhaltet den Code, den ich oben erklärt habe. Folglich ist der Kasten, welcher mit Out[ ] bezeichnet ist, dass was ich mir mit df.head() mit ausgeben lassen habe.

Was sehe ich da eigentlich?

Im Grunde ist die eine Tabelle mit 3 Spalten und n- Zeilen, wobei ich mir nur die ersten 5 habe anzeigen lassen. In Python wird bei der 0 angefangen zu zählen.
Die drei spalten haben die Namen „Unnamed:0“, „date“, „sales“.

Die erste Spalte weist darauf hin, dass der Datenbereinigungsprozess nicht ganz so glatt lief, wie erwartet. Diese werden wir in den nächsten Schritten „bereinigen“.

Die Spalte „date“ enthält Daten (Plural von Datum) im Format YYYY-MM-DD und die Spalte „sales“ enthält nicht ganzzahlige Werte.
Bitte beachtet, dass sowohl die Spalte „date“ und „sales“ im amerikanischen Format geschrieben sind. Das heißt für mich immer, dass ich dies irgendwann auf das europäische Format konvertieren muss.
Um festzustellen wir groß die gesamte Datendatei ist, nutze ich den Befehl:

df.shape

„df“ bezieht sich wie gewohnt auf das dataframe aus dem ersten Codeblock. Die Methode „shape“ gibt die Größe der gesamten Datenmenge zurück. In diesem Fall (233,3). Man liest dies so, 233 Zeilen (rows) und 3 Spalten (columns). Im der Block sieht nun wie folgt aus:

So, der erste Schritt ist geschafft und ich habe mir einen ersten Überblick über die Daten verschafft.

Weiter geht es! – Wie sehen die Daten graphisch aus?

Nach dem ich die Daten nun eingelesen habe, möchte mir diese einmal anschauen. 

Dafür gibt es in pyhton zahlreiche Bibliothek. Ich nutze gern matplotlib. (Hier der Link zur offiziellen Seite von matplotlib https://matplotlib.org/stable/)

Zu erst muss diese Bibliothek importiert werden. Dies wird gemeinsam mit numpy und pandas importiert:

import pandas as pd
import numpy as np
import matplotlib as plt

df = pd.read_csv("/content/drive/MyDrive/data/monthly_data.csv")

In der Variable „df“ sind nun unsere Daten wieder als dataframe gespeichtert. Mit der folgenden Befehlskette, kannst ich mir die Daten graphisch darstellen lassen.

df.plot(x="date", y="sales")

df.plot ist die Funkion, welche die Aufgabe des plotten übernimmt. Um die Achsen zur definieren gebe ich die Argumente (x =“date“ und y= „sales“) mit. Dies führt dazu, dass für die x-Achse die Spalte „date“ und für die y-Achse die Spalte „sales“ herangezogen wird.

So sieht der Codeblock im gesamten aus:

Ich sehe und erkenne hier zwar etwas aber, das sieht nicht schön aus. Dies genügt jedoch für einen ersten Überblick.

Wie geht es weiter?

Ich werden, nicht wie geplant alles in diesem einem Post vorstellen. Zum besseren Verständnis für uns alle, werde ich subpost erstellten, welche auf diesen Daten basieren.
Wenn ich neue Daten nutze, werde ich ein neues Projekt beginnen.

Als nächstes werde ich mit mit den Mittelwerten in dieser Zeitreihen beschäftigen. Dies dann, wie eben angekündigt im Subpost 1.1 – Mittelwerte.

Bis dahin

der fux

2. Oktober 2023

1 thought on “Projekt 1”

  1. Pingback: Zeitreihen in der Statistik: Eine Einführung - data-fux

Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Neueste Beiträge

  • Shit in – Shit out! Lasst uns vorher sprechen
  • Etwas Neues!
  • Kundensegmentierung – Ermitteln wir das R in der RFM Analyse.
  • Kundensegmentierung – Projekt Nr. 2
  • Der Modus in der Statistik

Neueste Kommentare

  • Kundensegmentierung - Projekt Nr. 2 - data-fux bei Projekt 1.1 – Der Mittelwert Teil 1
  • Projekt 1.1 - Der Mittelwert Teil 2 - data-fux bei Projekt 1.1 – Der Mittelwert Teil 1
  • Merkmale in der Statistik: Eine kleine Übersicht - data-fux bei Fangen wir an – der Mittelwert, oder alles ist gleich.
  • Zeitreihen in der Statistik: Eine Einführung - data-fux bei Projekt 1
  • Enrico bei Statistik – was ist denn das?
©2026 data-fux | Built using WordPress and Responsive Blogily theme by Superb
Cookie-Zustimmung verwalten
Um dir ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn du diesen Technologien zustimmst, können wir Daten wie das Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn du deine Zustimmung nicht erteilst oder zurückziehst, können bestimmte Merkmale und Funktionen beeinträchtigt werden.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
  • Optionen verwalten
  • Dienste verwalten
  • Verwalten von {vendor_count}-Lieferanten
  • Lese mehr über diese Zwecke
Einstellungen ansehen
  • {title}
  • {title}
  • {title}