Schött-Web

Si­gni­fi­kanz­test und Binomialverteilung

Bei einem Si­gni­fi­kanz­test gelten die Art der Wahrscheinlichkeitsverteilung (im Folgenden die Binomialverteilung) und alle Parameterwerte bis auf einen als bekannt. Ein Si­gni­fi­kanz­test wird nur dann durchgeführt, wenn es Zweifel an einer bereits aufgestellten Hypothese über diesen unbekannten Parameterwert gibt. Weil sich eine solche Hypothese mit Hilfe eines Si­gni­fi­kanz­tests als null und nichtig erweisen soll, wird sie als Nullhypothese H0 bezeichnet. Es ist allerdings unmöglich, mit Hilfe eines Si­gni­fi­kanz­tests die Gültigkeit oder Ungültigkeit einer Hypothese zu beweisen. Das Ziel eines Si­gni­fi­kanz­tests besteht lediglich darin, eine Entscheidung darüber zu ermöglichen, ob die Nullhypothese H0 zugunsten einer Alternativhypothese H1 abgelehnt oder lieber beibehalten werden sollte. Dabei besteht stets die Gefahr eines Irrtums. Um die Wahrscheinlichkeit zu begrenzen, H0 irrtümlicher Weise zugunsten von H1 abzulehnen, wird vor dem Durchführen des Tests ein Si­gni­fi­kanz­ni­veau α vorgegeben, das als obere Schranke für diese Irrtumswahrscheinlichkeit dient.

Im Folgenden wird eine Bernoulli-Kette der Länge n mit einer unbekannten Erfolgswahrscheinlichkeit p betrachtet. Die zugehörige Zufallsvariable X, welche die Anzahl der Erfolge beschreibt, ist also binomialverteilt und soll als Prüfgröße dienen. Die Nullhypothese, H0p=p0, über den Wert von p wird nur dann zugunsten einer Alternativhypothese H1 abgelehnt, wenn der empirische Befund x auf dem Niveau α in einem statistisch si­gni­fi­kan­ten Gegensatz zu H0 steht, der für die Annahme von H1 spricht. Je nach Beschaffenheit von H1 kann man verschiedene Arten von Si­gni­fi­kanz­tests unterscheiden:

  • H1pp0 (beidseitiger Test)
  • H1p<p0 (linksseitiger Test)
  • H1p>p0 (rechtsseitiger Test)
  • H1p=p1 (Alternativtest)

Diese vier Arten von Si­gni­fi­kanz­tests können Sie im Folgenden – im Rahmen der klassischen Testtheorie – untersuchen.

Alternativhypothese H1

Entscheidungsregel

Bei jeder Art von Si­gni­fi­kanz­test muss eine Entscheidungsregel aufgestellt werden, nach der zu entscheiden ist, ob H0 zugunsten von H1 abgelehnt wird oder nicht. H0 wird nur dann zugunsten von H1 abgelehnt, wenn der empirische Befund x in die kritische Region Kα fällt, die stets mindestens die folgende Bedingung erfüllen muss:

PXKαH0α.

Die Wahrscheinlichkeit, mit der die Nullhypothese H0 im Fall ihrer Gültigkeit trotzdem zugunsten von H1 abgelehnt wird, darf also nicht größer als das vorgegebene Si­gni­fi­kanz­ni­veau α sein. Ob ein empirischer Befund x diese – vor dem Durchführen des Tests festzulegende – Bedingung erfüllt, kann man auch prüfen, ohne zuvor die Grenzen von Kα bestimmt zu haben. Dazu berechnet man die Wahrscheinlichkeit, mit der man x oder einen noch stärker für das Ablehnen von H0 zugunsten von H1 sprechenden Befund erhielte, wenn H0 gültig wäre. Diese Wahrscheinlichkeit, die als empirisches Si­gni­fi­kanz­ni­veau¹ α bezeichnet wird, darf nicht größer als α sein:

αα.

Bei α handelt es sich nicht um eine Irrtumswahrscheinlichkeit, die nämlich eine Eigenschaft des Tests wäre, sondern um eine – von H0 abhängige – Eigenschaft eines einzelnen empirischen Befunds x, die nur dann für eine Testentscheidung herangezogen werden darf, wenn bereits vor dem Durchführen des Tests das vorgegebene Si­gni­fi­kanz­ni­veau α festgelegt worden ist. Ohne Kenntnis von α lässt sich nämlich keine Entscheidungsregel aufstellen, die für das Treffen einer seriösen Entscheidung notwendig ist und Aussagen über die Irrtumswahrscheinlichkeit überhaupt erst möglich macht.

Beim Aufstellen der Entscheidungsregel sind je nach Art des Si­gni­fi­kanz­tests spezielle Bedingungen, die ggf. zusätzlich erfüllt werden müssen, zu berücksichtigen.

Beidseitiger Test

Beim beidseitigen Test werden die kritischen Zahlen klinks und krechts der kritischen Region

Kα=01klinkskrechtskrechts+1n

so bestimmt, dass klinks die größte und krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

PXklinksH0α2PXkrechtsH0α2

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=Min2PXxH02PXxH01α.

Linksseitiger Test

Beim linksseitigen Test wird die kritische Zahl klinks der kritischen Region

Kα=01klinks

so bestimmt, dass klinks die größte derjenigen ganzen Zahlen ist, welche die Bedingung

PXklinksH0α

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=PXxH0α.

Rechtsseitiger Test

Beim rechtsseitigen Test wird die kritische Zahl krechts der kritischen Region

Kα=krechtskrechts+1n

so bestimmt, dass krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

PXkrechtsH0α

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=PXxH0α.

Alternativtest

Beim Alternativtest sind zwei Fälle zu unterscheiden:

1. Fall

Im Fall p1<p0 wird die kritische Zahl klinks der kritischen Region

Kα=01klinks

so bestimmt, dass klinks die größte derjenigen Zahlen ist, welche die Bedingung

PXklinksH0αPX=klinksH1>PX=klinksH0

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=PXxH0αPX=xH1>PX=xH0.

2. Fall

Im Fall p1>p0 wird die kritische Zahl krechts der kritischen Region

Kα=krechtskrechts+1n

so bestimmt, dass krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

PXkrechtsH0αPX=krechtsH1>PX=krechtsH0

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=PXxH0αPX=xH1>PX=xH0.

Arten von Fehlern und ihre Wahrscheinlichkeiten

Grundsätzlich sind bei Si­gni­fi­kanz­tests bis zu drei Arten von Fehlern möglich. Ein Fehler 1. Art wird begangen, wenn H0 gültig ist, aber zugunsten von H1 abgelehnt wird:

Fehler 1. Art: H0  XKα.

Wenn dagegen H1 gültig ist, aber H0 beibehalten wird, so wird ein Fehler 2. Art begangen:

Fehler 2. Art: H1  XKα.

Von einem Fehler 3. Art spricht man, wenn sowohl H0 als auch H1 ungültig sind und deshalb jede Testentscheidung falsch ist:

Fehler 3. Art: ¬H0  ¬H1.

Die folgende Tabelle soll einen Überblick über alle möglichen Fälle liefern, die beim Durchführen von Si­gni­fi­kanz­tests eintreten können.

Tatsächlicher Zustand der Wirklichkeit
Testentscheidung H0 ist gültig. H1 ist gültig. H0 und H1 sind ungültig.
H0 wird zugunsten von H1 abgelehnt. Fehler 1. Art Richtige Entscheidung Fehler 3. Art
H0 wird beibehalten. Richtige Entscheidung Fehler 2. Art

Bedauerlicher Weise lässt sich in der Regel keine der Wahrscheinlichkeiten, mit denen die drei möglichen Arten von Fehlern jeweils eintreten, berechnen, sondern bestenfalls ihr möglicher Maximalwert. Dies liegt daran, dass die Wahrscheinlichkeiten P(H0) und P(H1), mit denen H0 und H1 jeweils gültig sind, sowohl vor als auch nach dem Durchführen des Tests unbekannt sind. Andernfalls müsste man gar keinen Test durchführen. P(H0) und P(H1) lassen sich auch nicht abschätzen, um dadurch eine der beiden Hypothesen als glaubwürdiger erscheinen zu lassen. Beide Hypothesen können nämlich nach der klassischen Testtheorie jeweils nur entweder gültig oder ungültig sein:

P(H0)P(H1)  01.

Im Spezialfall, dass es sicher ist, dass H0 oder H1 gültig ist, – wie es beim beidseitigen Test der Fall ist – kann allerdings der Fehler 3. Art innerhalb des mathematischen Modells, das von einer binomialverteilten Prüfgröße ausgeht, ausgeschlossen werden:

P(H0H1)=1P(¬H0¬H1)=0.

Irrtumswahrscheinlichkeit 1. Art

Unter der Annahme, H0 sei gültig, lässt sich die bedingte Wahrscheinlichkeit berechnen, mit der man einen Fehler 1. Art beginge, falls H0 gültig wäre. Diese hypothetische Wahrscheinlichkeit, die durch das vorgegebene Si­gni­fi­kanz­ni­veau α nach oben beschränkt wird, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art:

Irrtumswahrscheinlichkeit 1. Art: PXKαH0.

Sie ist der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 1. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 1. Art auch noch die Wahrscheinlichkeit P(H0), mit der H0 gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 1. Art berechnen:

P(H0XKα)=P(H0)PXKαH0.

Wegen P(H0)01 ist diese Wahrscheinlichkeit entweder gleich null oder gleich der Irrtumswahrscheilichkeit 1. Art:

P(H0XKα)=0 für P(H0)=0PXKαH0 für P(H0)=1.

Somit stellt das vorgegebene Si­gni­fi­kanz­ni­veau α nicht nur eine obere Schranke der (hypothetischen) Irrtumswahrscheinlichkeit 1. Art, sondern auch eine obere Schranke der Wahrscheinlichkeit des Fehlers 1. Art dar.

Aus der bloßen Angabe des vorgegebenen Si­gni­fi­kanz­ni­veaus α lässt sich

PXKαH0αPXKαH01-α

und damit auch

P(H0XKα)α

folgern. Was dies für die Aussagen bedeutet, die sich aus einem Testergebnis folgern lassen, das si­gni­fi­kant bzw. nicht si­gni­fi­kant zum Niveau α ist, soll das folgende Baumdiagramm verdeutlichen.

Irrtumswahrscheinlichkeit 2. Art

Unter der Annahme, H1 sei gültig, kann es – je nach Art des Si­gni­fi­kanz­tests – auch möglich sein, die bedingte Wahrscheinlichkeit zu berechnen, mit der man einen Fehler 2. Art beginge, falls H1 gültig wäre. Diese hypothetische Wahrscheinlichkeit bezeichnet man als Irrtumswahrscheinlichkeit 2. Art:

Irrtumswahrscheinlichkeit 2. Art: PXKαH1.

Diese Wahrscheinlichkeit ist allerdings nur dann definiert, wenn H1 einen konkreten Zahlenwert p1 für die unbekannte Erfolgswahrscheinlichkeit p festlegt, wie es beim Alternativtest der Fall ist. Dann ist sie der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 2. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 2. Art auch noch die Wahrscheinlichkeit P(H1), mit der H1 gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 2. Art berechnen:

P(H1XKα)=P(H1)PXKαH1.

Wegen P(H1)01 ist diese Wahrscheinlichkeit entweder gleich null oder gleich der Irrtumswahrscheilichkeit 2. Art:

P(H1XKα)=0 für P(H1)=0PXKαH1 für P(H1)=1.

Güte eines Si­gni­fi­kanz­tests

Um die Güte eines Si­gni­fi­kanz­tests beurteilen zu können, genügt es nicht, nur die Irrtumswahrscheinlichkeiten 1. und 2. Art zu betrachten. Die Güte wird erst dann erkennbar, wenn man das Verhalten des Tests für alle möglichen Werte desjenigen Parameters, dessen tatsächlicher Wert unbekannt ist, untersucht. Diesem Zweck dient die Gütefunktion G, die jedem möglichen Parameterwert diejenige Wahrscheinlichkeit zuordnet, mit der die Nullhypothese abgelehnt werden würde, wenn es sich um den tatsächlichen Parameterwert der Wirklichkeit handelte.

Im obigen Beispiel der Bernoulli-Kette mit unbekannter Erfolgswahrscheinlichkeit p ordnet G jedem p01 die zugehörige Ablehnwahrscheinlichkeit von H0 zu:

G(p)=PXKαp mit p01.

Am Graphen von G lässt sich u. a. erkennen, ob bereits kleinste Abweichungen von p0 zu einer hohen Ablehnwahrscheinlichkeit von H0 führen, was je nach Sachlage gar nicht sinnvoll ist.

Aufgabe

Viele Menschen sind zwar in der Lage, Signifikanztests fehlerfrei durchzuführen, haben aber Schwierigkeiten bei der Interpretation ihrer Ergebnisse. Deshalb können missbräuchlich interpretierte Testergebnisse genutzt werden, um Menschen zu täuschen oder gar zu manipulieren.

Testen Sie Ihr Wissen über die Bedeutung eines si­gni­fi­kan­ten bzw. nicht si­gni­fi­kan­ten Testergebnisses anhand der folgenden Aufgabe.

Bedeutung eines si­gni­fi­kan­ten bzw. nicht si­gni­fi­kan­ten Testergebnisses

Mit Hilfe eines Si­gni­fi­kanz­tests soll geprüft werden, ob die Abweichung eines empirischen Befunds x vom Erwartungswert μ0 der Nullhypothese H0 statistisch si­gni­fi­kan­t zum Niveau α=5% ist. Als Testergebnis sind zwei Fälle möglich:

1. Fall: nicht si­gni­fi­kan­tes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch nicht si­gni­fi­kan­t zum Niveau α=5% ist. H0 wird also beibehalten.

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem nicht signifikanten Testergebnis folgern lässt.

  1. Es ist nun bewiesen, dass H0 gültig ist.
  2. Die Wahrscheinlichkeit für die Gültigkeit der Alternativhypothese H1 beträgt höchstens 5%.
  3. Die Irrtumswahrscheinlichkeit 1. Art beträgt höchstens 5%. Die Entscheidung für das Beibehalten von H0 ist entsprechend zu mindestens 95% richtig.
  4. Falls H1 gültig sein sollte, wäre die Entscheidung für das Beibehalten von H0 zu höchstens 5% falsch.
  5. Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens 95% der Fälle ebenfalls kein si­gni­fi­kan­tes Ergebnis zum Niveau α=5%.

2. Fall: si­gni­fi­kan­tes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch si­gni­fi­kan­t zum Niveau α=5% ist. H0 wird also zugunsten der Alternativhypothese H1 abgelehnt.

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem signifikanten Testergebnis folgern lässt.

  1. Es ist nun bewiesen, dass H0 ungültig ist.
  2. Die Wahrscheinlichkeit für die Gültigkeit von H0 beträgt höchstens 5%.
  3. Die Irrtumswahrscheinlichkeit 1. Art beträgt höchstens 5%. Die Entscheidung für H1 ist entsprechend zu mindestens 95% richtig.
  4. Falls H0 gültig sein sollte, wäre die Entscheidung für H1 zu höchstens 5% falsch.
  5. Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens 95% der Fälle ebenfalls ein si­gni­fi­kan­tes Ergebnis zum Niveau α=5%.

Überprüfen Sie Ihr Ergebnis, nachdem Sie alle 10 Entscheidungen getroffen haben.

Das ist richtig!
Das ist leider falsch.

Fußnoten

  1. Beim empirischen Si­gni­fi­kanz­ni­veau handelt es sich um den sog. p-Wert, der in der Literatur leider oft als Irrtumswahrscheinlichkeit fehlinterpretiert wird.

Abbildungen

  1. Baumdiagramm zum Signifikanztest