Skip to content

data-fux

Power BI aus dem Leben des data-fux

Menu
  • Startseite
  • Projekte
    • Kundensegmentierung – Projekt 2
    • Projekt 1
      • Projekt 1.1 Teil1
      • Projekt 1.1 Teil2
  • Statistik und mehr
    • Grundlagen
    • zentrale Tendenz
    • Modus
  • Python und mehr
  • Tools
  • der fux
    • Cookie-Richtlinie (EU)
    • Privacy Policy
Menu

Projekt 1.1 – Der Mittelwert Teil 2

Posted on 17. Oktober 202314. Oktober 2023 by der fux

Im letzten Post habe ich am Ende geschrieben, dass das dort gezeigte Ergebnis einen sehr geringen Aussagewert hat.
Ich zeig Euch mal warum:

Die horizontale Linie beschreibt den Mittelwert über die gesamte Zeitreihe. Die blaue die Werte der Zeitreihe. Was erkenne ich hier?

Nicht viel. Es gibt Werte die über und unter dem Mittelwert liegen. Eine Entwicklung anhand des Mittelwerts ist nicht erkennbar.
Betrachten wir die Sache doch einmal auf Jahresebene.

Der Mittelwert – auf Jahresebene

Bevor wir dies als Grafik plotten können, müssen die Daten angepasst werden. Zuerst werden wie gewohnt die benötigten Bibliotheken importiert. Dies sind pandas, numpy und matplotlib.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Weiterhin müssen wir die jeweiligen Jahreszahlen aus den Daten extrahieren. Dies mache ich wie folgt:

data["date"] = pd.to_datetime(data["date"])

Damit wird die Spalte „date“ in ein Datums-Format umgewandelt.

data["year"] =data["date"].dt.year

Hiermit wird eine Spalte „year“ ins dataframe eingefügt, welche den Name „Year“ hat. Mit der folgenden Zeile erstellen wir uns ein neues Dataframe, welches die Mittelwerte auf Jahresebene speichert.

data_2 = data.groupby("year").mean().reset_index()
  • data_2 ist der Name des erstellten dataframe
  • .groupby(„year“) sorgt dafür, dass die Daten nach den vorhandenen Jahreszahlen gruppiert werden
  • .mean() berechnet den Mittelwert
  • .reset_index() sorgt für eine ordentliche Struktur des dataframes

Im Codeblock sieht das wie folgt aus:

Leider müssen wir die Daten noch ein wenig bearbeiten, bevor wie sauber plotten können.

Der Plot – Vorbereitungen und Darstellung

Um beide dataframes in einer Grafik zu plotten, füge ich die daframe „data“ & „data_2“ zusammen. Dies mache ich über die Methode „pd.merge“. Wie die funktioniert, schreibe ich in einem separaten Post.

Bevor ich sinnvoll weitermachen kann, benenne ich die Spalte „sales“ in „data_2“ in „mean_year“ um. „mean_year“ deshalb, weil ich ja den Mittelwert pro Jahr zeigen möchte. Dies geht über die Methode „.rename“.

data_2 =data_2.rename(columns={"sales":"mean_year"})

Nun „merge“ ich die dataframes mit:

data_3 = pd.merge(data, data_2, on=["year"])

Das Ergebnis von dem Plot sieht so aus:

So, jetzt sind sämtliche Vorbereitungen für den nächsten Plot abschlossen. Wir können uns dies nun wie folgt plotten lassen:

data_3.plot(x="date",y=["sales","mean_year", mean_x])
plt.show()

Zur Erklärung:

  • .plot ist die Methode, welche das Plotten initialisiert
  • x=“data“ gibt an, dass auf der x-Achse die Spalte „date“ abgetragen wird
  • y=[„sales“, „mean_year“, mean_x] gibt an, dass auf der y- Achse die Spalten „sale“, mean_x und „mean_year“ abgetragen werden
  • plt.show() sorgt dafür, dass die Grafik auch ausgeworfen wird.

Und so sieht die Grafik nun aus

Ihr seht, dass „mean_x“ den Mittelwert über den gesamten Zeitraum aus dem Teil 1 darstellt.

„mean_year“ hingegen beschreibt nun die Mittelwerte in den jeweiligen Jahren. Dies ist schon allein vom Bauchgefühl her besser zu verstehen, als jedes Jahr den identischen Sales-Wert anzunehmen.

Des Weiteren lässt sich hier auch ein Trend erkennen, welcher im „mean_x“ nicht zu erkennen ist. Bei „mean_x“ kann ich leicht in die Annahme verfallen, dass das betreffende Unternehmen kein Wachstum aufweist und somit kaum zukunftsfähig ist. Mit „mean_year“ hingegen erkenne ich, dass es „gute“ und „nicht so gute“ Jahre gab.

Fazit

Bereits beim Mittelwert, dem zentralen und recht simplen Konzept der Statistik, muss vorab sehr genau überlegt werden, wie die Daten beschaffen sind und welche Schlüsse sich wie ziehen lassen können.

Wir sind noch nicht am Ende der Thematik angelangt. Dazu dann im nächsten Post.

Der gesamte Codeblock sieht so aus:

Viel Spass beim rumprobieren.

Euer fux

Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Neueste Beiträge

  • Shit in – Shit out! Lasst uns vorher sprechen
  • Etwas Neues!
  • Kundensegmentierung – Ermitteln wir das R in der RFM Analyse.
  • Kundensegmentierung – Projekt Nr. 2
  • Der Modus in der Statistik

Neueste Kommentare

  • Kundensegmentierung - Projekt Nr. 2 - data-fux bei Projekt 1.1 – Der Mittelwert Teil 1
  • Projekt 1.1 - Der Mittelwert Teil 2 - data-fux bei Projekt 1.1 – Der Mittelwert Teil 1
  • Merkmale in der Statistik: Eine kleine Übersicht - data-fux bei Fangen wir an – der Mittelwert, oder alles ist gleich.
  • Zeitreihen in der Statistik: Eine Einführung - data-fux bei Projekt 1
  • Enrico bei Statistik – was ist denn das?
©2026 data-fux | Built using WordPress and Responsive Blogily theme by Superb
Cookie-Zustimmung verwalten
Um dir ein optimales Erlebnis zu bieten, verwenden wir Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wenn du diesen Technologien zustimmst, können wir Daten wie das Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn du deine Zustimmung nicht erteilst oder zurückziehst, können bestimmte Merkmale und Funktionen beeinträchtigt werden.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
  • Optionen verwalten
  • Dienste verwalten
  • Verwalten von {vendor_count}-Lieferanten
  • Lese mehr über diese Zwecke
Einstellungen ansehen
  • {title}
  • {title}
  • {title}