Signifikanztest und Binomialverteilung

Bei einem Signifikanztest gelten die Art der Wahrscheinlichkeitsverteilung – im Folgenden die Binomialverteilung – und alle Parameterwerte bis auf einen als bekannt. Ein Signifikanztest wird nur dann durchgeführt, wenn es Zweifel an einer bereits aufgestellten Hypothese über diesen unbekannten Parameterwert gibt. Weil sich eine solche Hypothese mit Hilfe eines Signifikanztests als null und nichtig erweisen soll, wird sie als Nullhypothese $H_{0}$ bezeichnet. Es ist allerdings unmöglich, mit Hilfe eines Signifikanztests die Gültigkeit oder Ungültigkeit einer Hypothese zu beweisen. Das Ziel eines Signifikanztests besteht lediglich darin, eine Entscheidung darüber zu ermöglichen, ob die Nullhypothese $H_{0}$ zugunsten einer Alternativhypothese $H_{1}$ abgelehnt oder lieber beibehalten werden sollte. Dabei besteht stets die Gefahr eines Irrtums. Um die Wahrscheinlichkeit zu begrenzen, $H_{0}$ irrtümlicher Weise zugunsten von $H_{1}$ abzulehnen, wird vor dem Durchführen des Tests ein Signifikanzniveau $α$ vorgegeben, das als obere Schranke für diese Irrtumswahrscheinlichkeit dient.

Im Folgenden wird eine Bernoulli-Kette der Länge $n$ mit einer unbekannten Erfolgswahrscheinlichkeit $p$ betrachtet. Die zugehörige Zufallsvariable $X$ , welche die Anzahl der Erfolge beschreibt, ist also binomialverteilt und soll als Prüfgröße dienen. Die Nullhypothese, $H_{0} : p = p_{0}$ , über den Wert von $p$ wird nur dann zugunsten einer Alternativhypothese $H_{1}$ abgelehnt, wenn der empirische Befund $x^{∗}$ auf dem vorgegebenen Niveau $α$ in einem statistisch signifikanten Gegensatz zu $H_{0}$ steht, der für die Annahme von $H_{1}$ spricht. Je nach Beschaffenheit von $H_{1}$ kann man verschiedene Arten von Signifikanztests unterscheiden:

$H_{1} : p \neq p_{0}$ (beidseitiger Test)
$H_{1} : p < p_{0}$ (linksseitiger Test)
$H_{1} : p > p_{0}$ (rechtsseitiger Test)
$H_{1} : p = p_{1}$ (Alternativtest)

Diese vier Arten von Signifikanztests können Sie im Folgenden – im Rahmen der klassischen Testtheorie – untersuchen. Der Übersichtlichkeit zuliebe kann für die Länge der Bernoulli-Kette höchstens der Wert 50 eingestellt werden. In der Praxis sind oftmals deutlich größere Werte sinnvoll.

Alternativhypothese

H_{1}

p \neq p_{0}

p < p_{0}

p > p_{0}

p = p_{1}

Graphen der Gütefunktion

G

anzeigen

Tatsächliche Verteilung anzeigen

Empirischen Befund

x^{∗}

anzeigen

Entscheidungsregel

Bei jeder Art von Signifikanztest muss eine Entscheidungsregel aufgestellt werden, nach der zu entscheiden ist, ob $H_{0}$ zugunsten von $H_{1}$ abgelehnt wird oder nicht. $H_{0}$ wird nur dann zugunsten von $H_{1}$ abgelehnt, wenn der empirische Befund $x^{∗}$ in die kritische Region $K_{α}$ fällt, die stets mindestens die folgende Bedingung erfüllen muss:

$P (X \in K_{α} | H_{0}) \leq α$ .

Die Wahrscheinlichkeit, mit der die Nullhypothese $H_{0}$ im Fall ihrer Gültigkeit trotzdem zugunsten von $H_{1}$ abgelehnt wird, darf also nicht größer als das vorgegebene Signifikanzniveau $α$ sein. Ob ein empirischer Befund $x^{∗}$ diese – vor dem Durchführen des Tests festzulegende – Bedingung erfüllt, kann man auch prüfen, ohne zuvor die Grenzen von $K_{α}$ bestimmt zu haben. Dazu berechnet man die Wahrscheinlichkeit, mit der man $x^{∗}$ oder einen noch stärker für das Ablehnen von $H_{0}$ zugunsten von $H_{1}$ sprechenden Befund erhielte, wenn $H_{0}$ gültig wäre. Diese Wahrscheinlichkeit, die als empirisches Signifikanzniveau¹ $α^{∗}$ bezeichnet wird, darf nicht größer als $α$ sein:

$α^{∗} \leq α$ .

Bei $α^{∗}$ handelt es sich nicht um eine Irrtumswahrscheinlichkeit, die nämlich eine Eigenschaft des Tests wäre, sondern um eine – von $H_{0}$ abhängige – Eigenschaft eines einzelnen empirischen Befunds $x^{∗}$ , die nur dann für eine Testentscheidung herangezogen werden darf, wenn bereits vor dem Durchführen des Tests das vorgegebene Signifikanzniveau $α$ festgelegt worden ist. Ohne Kenntnis von $α$ lässt sich nämlich keine Entscheidungsregel aufstellen, die für das Treffen einer seriösen Entscheidung notwendig ist und Aussagen über die Irrtumswahrscheinlichkeit überhaupt erst möglich macht.

Beim Aufstellen der Entscheidungsregel sind je nach Art des Signifikanztests spezielle Bedingungen, die ggf. zusätzlich erfüllt werden müssen, zu berücksichtigen.

Beidseitiger Test

Beim beidseitigen Test werden die kritischen Zahlen $k_{links}$ und $k_{rechts}$ der kritischen Region

$K_{α} = {0; 1; …; k_{links}} \cup {k_{rechts}; k_{rechts} + 1; …; n}$

so bestimmt, dass $k_{links}$ die größte und $k_{rechts}$ die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

$P (X \leq k_{links} | H_{0}) \leq \frac{α}{2} \land P (X \geq k_{rechts} | H_{0}) \leq \frac{α}{2}$

erfüllen.

Ein empirischer Befund $x^{∗}$ fällt genau dann in die kritische Region $K_{α}$ , wenn gilt:

$α^{∗} = Min {2 \cdot P (X \leq x^{∗} | H_{0}); 2 \cdot P (X \geq x^{∗} | H_{0}); 1} \leq α$ .

Linksseitiger Test

Beim linksseitigen Test wird die kritische Zahl $k_{links}$ der kritischen Region

$K_{α} = {0; 1; …; k_{links}}$

so bestimmt, dass $k_{links}$ die größte derjenigen ganzen Zahlen ist, welche die Bedingung

$P (X \leq k_{links} | H_{0}) \leq α$

erfüllen.

Ein empirischer Befund $x^{∗}$ fällt genau dann in die kritische Region $K_{α}$ , wenn gilt:

$α^{∗} = P (X \leq x^{∗} | H_{0}) \leq α$ .

Rechtsseitiger Test

Beim rechtsseitigen Test wird die kritische Zahl $k_{rechts}$ der kritischen Region

$K_{α} = {k_{rechts}; k_{rechts} + 1; …; n}$

so bestimmt, dass $k_{rechts}$ die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

$P (X \geq k_{rechts} | H_{0}) \leq α$

erfüllen.

Ein empirischer Befund $x^{∗}$ fällt genau dann in die kritische Region $K_{α}$ , wenn gilt:

$α^{∗} = P (X \geq x^{∗} | H_{0}) \leq α$ .

Alternativtest

Beim Alternativtest sind zwei Fälle zu unterscheiden. Im 1. Fall ist $p_{1} < p_{0}$ und im 2. Fall $p_{1} > p_{0}$ .

1. Fall

Im Fall $p_{1} < p_{0}$ wird die kritische Zahl $k_{links}$ der kritischen Region

$K_{α} = {0; 1; …; k_{links}}$

so bestimmt, dass $k_{links}$ die größte derjenigen Zahlen ist, welche die Bedingung

$P (X \leq k_{links} | H_{0}) \leq α \land P (X = k_{links} | H_{1}) > P (X = k_{links} | H_{0})$

erfüllen.

Ein empirischer Befund $x^{∗}$ fällt genau dann in die kritische Region $K_{α}$ , wenn gilt:

$α^{∗} = P (X \leq x^{∗} | H_{0}) \leq α \land P (X = x^{∗} | H_{1}) > P (X = x^{∗} | H_{0})$ .

2. Fall

Im Fall $p_{1} > p_{0}$ wird die kritische Zahl $k_{rechts}$ der kritischen Region

$K_{α} = {k_{rechts}; k_{rechts} + 1; …; n}$

so bestimmt, dass $k_{rechts}$ die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

$P (X \geq k_{rechts} | H_{0}) \leq α \land P (X = k_{rechts} | H_{1}) > P (X = k_{rechts} | H_{0})$

erfüllen.

Ein empirischer Befund $x^{∗}$ fällt genau dann in die kritische Region $K_{α}$ , wenn gilt:

$α^{∗} = P (X \geq x^{∗} | H_{0}) \leq α \land P (X = x^{∗} | H_{1}) > P (X = x^{∗} | H_{0})$ .

Arten von Fehlern und ihre Wahrscheinlichkeiten

Grundsätzlich sind bei Signifikanztests – unter der Voraussetzung einer korrekten Durchführung – bis zu drei Arten von Fehlern möglich. Ein Fehler 1. Art wird begangen, wenn $H_{0}$ gültig ist, aber zugunsten von $H_{1}$ abgelehnt wird:

Fehler 1. Art: $H_{0} \land X \in K_{α}$ .

Wenn dagegen $H_{1}$ gültig ist, aber $H_{0}$ beibehalten wird, so wird ein Fehler 2. Art begangen:

Fehler 2. Art: $H_{1} \land X \notin K_{α}$ .

Von einem Fehler 3. Art spricht man, wenn sowohl $H_{0}$ als auch $H_{1}$ ungültig sind und deshalb jede Testentscheidung falsch ist:

Fehler 3. Art: $\neg H_{0} \land \neg H_{1}$ .

Die folgende Tabelle soll einen Überblick über alle möglichen Fälle liefern, die beim Durchführen von Signifikanztests eintreten können.

	Tatsächlicher Zustand der Wirklichkeit
Testentscheidung	$H_{0}$ ist gültig.	$H_{1}$ ist gültig.	$H_{0}$ und $H_{1}$ sind ungültig.
$H_{0}$ wird zugunsten von $H_{1}$ abgelehnt.	Fehler 1. Art	Richtige Entscheidung	Fehler 3. Art
$H_{0}$ wird beibehalten.	Richtige Entscheidung	Fehler 2. Art	Fehler 3. Art

Bedauerlicher Weise lässt sich in der Regel keine der Wahrscheinlichkeiten, mit denen die drei möglichen Arten von Fehlern jeweils eintreten, berechnen, sondern bestenfalls ihr möglicher Maximalwert. Dies liegt daran, dass die Wahrscheinlichkeiten $P (H_{0})$ und $P (H_{1})$ , mit denen $H_{0}$ und $H_{1}$ jeweils gültig sind, sowohl vor als auch nach dem Durchführen des Tests unbekannt sind. $P (H_{0})$ und $P (H_{1})$ lassen sich auch nicht abschätzen, um dadurch eine der beiden Hypothesen glaubwürdiger erscheinen zu lassen. Beide Hypothesen können nämlich nach der klassischen Testtheorie jeweils nur entweder gültig oder ungültig sein:

$P (H_{0}), P (H_{1}) \in {0; 1}$ .

Im Spezialfall, in dem es als sicher gilt, dass $H_{0}$ oder $H_{1}$ gültig ist, – wie es beim beidseitigen Test der Fall ist – kann allerdings der Fehler 3. Art innerhalb des mathematischen Modells, das von einer binomialverteilten Prüfgröße ausgeht, ausgeschlossen werden:

$P (H_{0} \lor H_{1}) = 1 \Rightarrow P (\neg H_{0} \land \neg H_{1}) = 0$ .

Irrtumswahrscheinlichkeit 1. Art

Unter der Annahme, $H_{0}$ sei gültig, lässt sich die bedingte Wahrscheinlichkeit berechnen, mit der man einen Fehler 1. Art beginge, falls $H_{0}$ gültig wäre. Diese hypothetische Wahrscheinlichkeit, die vom vorgegebenen Signifikanzniveau $α$ nach oben beschränkt wird, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art:

Irrtumswahrscheinlichkeit 1. Art: $P (X \in K_{α} | H_{0})$ .

Sie ist der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 1. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 1. Art auch noch die Wahrscheinlichkeit $P (H_{0})$ , mit der $H_{0}$ gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 1. Art berechnen:

$P (H_{0} \land X \in K_{α}) = P (H_{0}) \cdot P (X \in K_{α} | H_{0})$ .

Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 1. Art passiert. Sie ist wegen $P (H_{0}) \in {0; 1}$ entweder gleich null oder gleich der Irrtumswahrscheinlichkeit 1. Art:

$P (H_{0} \land X \in K_{α}) = {\begin{cases} 0 & für P (H_{0}) = 0 \\ P (X \in K_{α} | H_{0}) & für P (H_{0}) = 1 \end{cases}$ .

Somit stellt das vorgegebene Signifikanzniveau $α$ nicht nur eine obere Schranke der (hypothetischen) Irrtumswahrscheinlichkeit 1. Art, sondern auch des Risikos, dass ein Fehler 1. Art passiert, dar.

Aus der bloßen Angabe des vorgegebenen Signifikanzniveaus $α$ lassen sich

$P (X \in K_{α} | H_{0}) \leq α \land P (X \notin K_{α} | H_{0}) \geq 1 - α$

und auch

$P (H_{0} \land X \in K_{α}) \leq α$

folgern. Über die Wahrscheinlichkeit $P (H_{0} \land X \notin K_{α})$ weiß man dagegen nur, dass sie jeden Wert von $0$ bis $1 - P (X \in K_{α} | H_{0})$ haben kann. Aus diesem Grund kann ein Testergebnis, welches das Beibehalten von $H_{0}$ zur Folge hat, $H_{0}$ auch nicht stützen. Wie wenig sich aus einem Testergebnis folgern lässt, wenn man lediglich weiß, ob es signifikant oder nicht signifikant zum Niveau $α$ ist, soll das folgende Baumdiagramm verdeutlichen.

Baumdiagramm zum Signifikanztest — Abbildung 1

Die Kenntnis der maximalen Wahrscheinlichkeit des Fehlers 1. Art ermöglicht leider keine Aussage über die Wahrscheinlichkeit dafür, dass eine richtige Entscheidung getroffen worden ist. Die aus einer Irrtumswahrscheinlichkeit 1. Art von $5 %$ gefolgerte Aussage „Die Testentscheidung für die Alternativhypothese ist dann entsprechend zu $95 %$ richtig“, die der Autor auf der Homepage eines renommierten deutschen Unternehmens gefunden hat, das weltweit Dienstleistungen zur Statistik mit Tätigkeitsschwerpunkt Medizin und Pharmazie erbringt, ist also völlig falsch und auf erschreckend gefährliche Weise irreführend.²

Es stellt sich nun die Frage, welche Aussagen sich aus Kenntnissen über die Irrtumswahrscheinlichkeit 2. Art folgern lassen.

Irrtumswahrscheinlichkeit 2. Art

Unter der Annahme, $H_{1}$ sei gültig, kann es – je nach Art des Signifikanztests – auch möglich sein, die bedingte Wahrscheinlichkeit zu berechnen, mit der man einen Fehler 2. Art beginge, falls $H_{1}$ gültig wäre. Diese hypothetische Wahrscheinlichkeit bezeichnet man als Irrtumswahrscheinlichkeit 2. Art:

Irrtumswahrscheinlichkeit 2. Art: $P (X \notin K_{α} | H_{1})$ .

Diese Wahrscheinlichkeit ist allerdings nur dann definiert, wenn $H_{1}$ einen konkreten Zahlenwert $p_{1}$ für die unbekannte Erfolgswahrscheinlichkeit $p$ festlegt, wie es beim Alternativtest der Fall ist. Dann ist sie der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 2. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 2. Art auch noch die Wahrscheinlichkeit $P (H_{1})$ , mit der $H_{1}$ gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 2. Art berechnen:

$P (H_{1} \land X \notin K_{α}) = P (H_{1}) \cdot P (X \notin K_{α} | H_{1})$ .

Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 2. Art passiert. Sie ist wegen $P (H_{1}) \in {0; 1}$ entweder gleich null oder gleich der Irrtumswahrscheinlichkeit 2. Art:

$P (H_{1} \land X \notin K_{α}) = {\begin{cases} 0 & für P (H_{1}) = 0 \\ P (X \notin K_{α} | H_{1}) & für P (H_{1}) = 1 \end{cases}$ .

Güte eines Signifikanztests

Um die Güte eines Signifikanztests beurteilen zu können, genügt es nicht, nur die Irrtumswahrscheinlichkeiten 1. und 2. Art zu betrachten. Die Güte wird erst dann erkennbar, wenn man das Verhalten des Tests für alle möglichen Werte desjenigen Parameters, dessen tatsächlicher Wert unbekannt ist, untersucht. Diesem Zweck dient die Gütefunktion $G$ , die jedem möglichen Parameterwert diejenige Wahrscheinlichkeit zuordnet, mit der die Nullhypothese abgelehnt werden würde, wenn es sich um den tatsächlichen Parameterwert der Wirklichkeit handelte.

Im obigen Beispiel der Bernoulli-Kette mit unbekannter Erfolgswahrscheinlichkeit $p$ ordnet $G$ jedem $p \in [0; 1]$ die zugehörige Ablehnwahrscheinlichkeit von $H_{0}$ zu:

$G (p) = P (X \in K_{α} | p) mit p \in [0; 1]$ .

Am Graphen von $G$ lässt sich u. a. erkennen, ob bereits kleinste Abweichungen von $p_{0}$ zu einer hohen Ablehnwahrscheinlichkeit von $H_{0}$ führen, was je nach Sachlage gar nicht sinnvoll ist.

Aufgabe

Viele Menschen sind zwar in der Lage, Signifikanztests – ähnlich einer Maschine – korrekt durchzuführen, haben aber Schwierigkeiten beim Interpretieren ihrer Ergebnisse. Dies liegt in der Regel an weit verbreiteten Fehlvorstellungen von der Bedeutung des Signifikanzniveaus. Deshalb können missbräuchlich interpretierte Testergebnisse genutzt werden, um Menschen zu täuschen oder gar zu manipulieren.

Testen Sie Ihr Wissen über die Bedeutung eines signifikanten bzw. nicht signifikanten Testergebnisses anhand der folgenden Aufgabe.

Bedeutung eines signifikanten bzw. nicht signifikanten Testergebnisses

Mit Hilfe eines Signifikanztests soll geprüft werden, ob die Abweichung eines empirischen Befunds $x^{∗}$ vom Erwartungswert $μ_{0}$ der Nullhypothese $H_{0}$ statistisch signifikant zum Niveau $α = 5 %$ ist. Als Testergebnis sind zwei Fälle möglich:

1. Fall: nicht signifikantes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch nicht signifikant zum Niveau $α = 5 %$ ist. $H_{0}$ wird also beibehalten.

Auftrag

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem nicht signifikanten Testergebnis folgern lässt.

Es ist nun bewiesen, dass $H_{0}$ gültig ist.
wahr falsch
Die Wahrscheinlichkeit für die Gültigkeit der Alternativhypothese $H_{1}$ beträgt höchstens $5 %$ .
wahr falsch
Die Entscheidung für das Beibehalten von $H_{0}$ ist zu mindestens $95 %$ richtig.
wahr falsch
Die Wahrscheinlichkeit, $H_{0}$ irrtümlich beibehalten zu haben, beträgt höchstens $5 %$ .
wahr falsch
Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens $95 %$ der Fälle ebenfalls kein signifikantes Ergebnis zum Niveau $α = 5 %$ .
wahr falsch

2. Fall: signifikantes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch signifikant zum Niveau $α = 5 %$ ist. $H_{0}$ wird also zugunsten der Alternativhypothese $H_{1}$ abgelehnt.

Auftrag

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem signifikanten Testergebnis folgern lässt.

Es ist nun bewiesen, dass $H_{0}$ ungültig ist.
wahr falsch
Die Wahrscheinlichkeit für die Gültigkeit von $H_{0}$ beträgt höchstens $5 %$ .
wahr falsch
Die Entscheidung für $H_{1}$ ist zu mindestens $95 %$ richtig.
wahr falsch
Die Wahrscheinlichkeit, $H_{0}$ irrtümlich abgelehnt zu haben, beträgt höchstens $5 %$ .
wahr falsch
Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens $95 %$ der Fälle ebenfalls ein signifikantes Ergebnis zum Niveau $α = 5 %$ .
wahr falsch

Überprüfen Sie Ihr Ergebnis, nachdem Sie alle 10 Entscheidungen getroffen haben.

Das ist richtig!

Das ist leider falsch.

Fußnoten

Beim empirischen Signifikanzniveau handelt es sich um den sog. p-Wert, der in der Literatur leider oft als Irrtumswahrscheinlichkeit fehlinterpretiert wird.
Der Irrtum, ein statistischer Test könnte als alleiniges Werkzeug der Wahrheitsfindung dienen, scheint ohnehin unter Medizinern weit verbreitet zu sein. Darauf weisen viele in der Statistik-Literatur zu findenden Darstellungen von Missverständnissen im Medizinerkreis hin. Man sollte als Patient also kritisch nachfragen, wenn ein Arzt von einem signifikanten Studienergebnis spricht.

Abbildungen

Baumdiagramm zum Signifikanztest

Si­gni­fi­kanz­test und Binomialverteilung

Entscheidungsregel

Beidseitiger Test

Linksseitiger Test

Rechtsseitiger Test

Alternativtest

1. Fall

2. Fall

Arten von Fehlern und ihre Wahrscheinlichkeiten

Irrtumswahrscheinlichkeit 1. Art

Irrtumswahrscheinlichkeit 2. Art

Güte eines Si­gni­fi­kanz­tests

Aufgabe

Bedeutung eines si­gni­fi­kan­ten bzw. nicht si­gni­fi­kan­ten Testergebnisses

1. Fall: nicht si­gni­fi­kan­tes Testergebnis

Auftrag

2. Fall: si­gni­fi­kan­tes Testergebnis

Auftrag

Signifikanztest und Binomialverteilung

Güte eines Signifikanztests

Bedeutung eines signifikanten bzw. nicht signifikanten Testergebnisses

1. Fall: nicht signifikantes Testergebnis

2. Fall: signifikantes Testergebnis