Grundbegriffe der Statistik

In der Statistik haben wir es mit Stichproben zu tun, die aus einer Grundgesamtheit (alle Einwohner eines Landes, alle Äpfel aus einer Lieferung ...) entnommen werden. Die Elemente der Stichprobe werden auf ein bestimmtes Merkmal untersucht, das in verschiedenen Ausprägungen auftreten kann.

n: Umfang der Stichprobe
x1, x2, ..., xn: gemessene Werte (Ausprägungen des untersuchten Merkmals)
H1, H2, ... : absolute Häufigkeit
h1, h2, ...:relative Häufigkeit (hi = Hi/n)

Je nach Art eines Merkmals unterscheidet man verschiedene Skalenniveaus:

Die Häufigkeiten stellt man gern in einem Histogramm dar (siehe Beispiel).
Bei großen Datenmengen teilt man die Werte in Klassen ein (z.B. Größe 150 - 160 cm, 160 - 170 cm ...)

 

Zentralmaße

Wir versuchen, die Stichprobe durch einen "mittleren Wert" zu beschreiben.

Mittelwert

Der Mittelwert (das arithmetische Mittel) ist das wichtigste Zentralmaß:

(Zur Verwendung des Summenzeichens)

Wenn Werte mehrmals vorkommen, rechnet man besser mit den relativen Häufigkeiten:

(gewichtetes arithmetisches Mittel)

Bei klassifizierten Daten verwendet man die Klassenmitten als Messwerte (z.B. Körpergröße 150 - 160 cm: wir rechnen mit xi = 155 cm). Der Mittelwert ist nur bei intervall- und verhältnisskalierten Daten sinnvoll.

Andere Mittelwerte

Median:

Das arithmetische Mittel hat den Nachteil, dass es sehr empfindlich gegenüber "Ausreißern" ist (wenn z.B. in einer Firma 9 Personen je 1000 € verdienen und der Chef 11000 €, beträgt das "Durchschnittseinkommen" 2000 €!) In solchen Fällen ist der Median (Zentralwert) aussagekräftiger: Wir ordnen die Daten der Größe nach und betrachten den Wert in der Mitte der Liste. Bei einer geraden Anzahl von Daten bilden wir das arithmetische Mittel der beiden mittleren Werte. Die so erhaltene Zahl hat die Eigenschaft, dass die Hälfte der Werte darunter, die Hälfte darüber liegt.

= x(n+1)/2 für ungerades n
= 1/2(xn/2 + xn/2+1) für gerades n
(xi: Werte aus geordneter Urliste)

Der Median kann bei ordinal-, intervall- und verhältnisskalierten Daten angewendet werden.

Modus

Der Modus (Modalwert) ist der Wert, der am häufigsten vorkommt. Eine Stichprobe kann auch mehrere Modalwerte haben. Dieser Wert liefert am wenigsten Information, er kann aber auf allen Datenniveaus angewendet werden.

 

Streuungsmaße

liefern ein Maß dafür, wie sehr die gemessenen Werte vom Mittelwert abweichen.

Varianz und Standardabweichung

Wir interessieren uns für die Differenzen der gemessenen Werte zum Mittelwert. Damit wir nicht mit negativen Zahlen rechnen müssen, quadrieren wir diese Differenzen und bilden davon wieder den Mittelwert. So erhalten wir die Varianz:

Das kann man umformen zu folgender Formel, die leichter zu berechnen ist:

("Mittelwert der Quadrate minus Quadrat des Mittelwerts")

Wenn Werte mehrmals vorkommen, rechnet man wieder mit dem gewichteten Mittel:

Damit die Dimension wieder "stimmt", ziehen wir die Wurzel aus der Varianz und erhalten die Standardabweichung:

(Achtung, Verwechslungsgefahr:
In manchen Büchern findet sich für die Varianz folgende Formel:
Sie wird dann verwendet, wenn man aufgrund einer Stichprobe die Varianz der Grundgesamtheit abschätzen will.)

Spannweite

Die Differenz zwischen dem kleinstem und dem größten Wert bezeichnet man als Spannweite (engl. range). Dieses Streuungsmaß ist besonders leicht zu berechnen.

R = xmax - xmin

Quartile:

Die Quartile definiert man analog zum Median:

unteres Quartil Q1 bzw. Q0,25: ¼ der Werte liegen darunter
oberes Quartil Q3 bzw. Q0,75: ¾ der Werte liegen darunter

Der Median ist in dieser Bezeichnungsweise das 2. Quartil Q2 bzw. Q0,5.
(Ebenso definiert man Perzentile, z.B. 10%-Perzentil Q0,1: 10% der Werte liegen darunter.)

Eine sehr übersichtliche Darstellung von Median, Spannweite und Quartilen ist das Boxplot-Diagramm ("box and whiskers", siehe Beispiel): Die "Box" reicht vom unteren bis zum oberen Quartil, die Linie in der Mitte gibt den Median an. Der "Schnurrbart" reicht bis zum kleinsten bzw. größten Wert.


Beispiel:

  1. Zehn Frauen wurden nach ihrer Körpergröße (in cm) gefragt.

    Urliste:
    168, 170, 161, 168, 162, 172, 164, 167, 170, 158

    Geordnete Urliste:
    158, 161, 162, 164, 167, 168, 168, 170, 170, 172

    Mittelwert:
    = (158+161+162+164+167+168+168+170+170+172)/10 = 166

    Median: = (167+168)/2 = 167,5

    Modi: 168 und 170

    Varianz und Standardabweichung:
    V(x) = (158²+161²+162²+164²+167²+168²+168²+170²+170²+172²)/10 - 166² = 18,6
    s = √18,6 = 4,313

    Spannweite: R = 172 - 158 = 14

    Quartile:
    Q1 = 162 (liegt in der Mitte der unteren Hälfte)
    Q3 = 170 (liegt in der Mitte der oberen Hälfte)

    Boxplot
    Boxplot-Diagramm

    (Anmerkung: Die Berechnung der Quartile ist nicht ganz einheitlich; hier wurde offensichtlich nach einer etwas anderen Vorschrift gerechnet.)

  2. Dieselben Frauen gaben auch ihre Schuhgröße an.

    Urliste:
    39, 39, 38, 38, 37, 41, 38, 38, 40, 37

    Hier rechnen wir besser mit den relativen Häufigkeiten:

    Histogramm

    Schuhgröße

    Hi

    hi

    37

    2

    0,2

    38

    4

    0,4

    39

    2

    0,2

    40

    1

    0,1

    41

    1

    0,1

    Mittelwert:
    = 37·0,2 + 38·0,4 + 39·0,2 + 40·0,1 + 41·0,1 = 38,5

    Median: = 38

    Modus: 38

    Varianz und Standardabweichung:
    V(y) = 37²·0,2 + 38²·0,4 + 39²·0,2 + 40²·0,1 + 41²·0,1 - 38,5² = 1,45
    s = √11,45 = 1,204

    Spannweite: R = 41 - 37 = 4

    Quartile: Q1 = 38, Q3 = 39

Links:
http://medweb.uni-muenster.de/institute/imib/lehre/skripte/biomathe/jumbo.html:
ausführliches Skriptum der Universität Münster, mit vielen Java-Applets

Übungen

Weiter: Lineare Regression

Zum Inhaltsverzeichnis