Schött-Web

Si­gni­fi­kanz­test und Binomialverteilung

Bei einem Si­gni­fi­kanz­test gelten die Art der Wahrscheinlichkeitsverteilung (im Folgenden die Binomialverteilung) und alle Parameterwerte bis auf einen als bekannt. Ein Si­gni­fi­kanz­test wird nur dann durchgeführt, wenn es Zweifel an einer bereits aufgestellten Hypothese über diesen unbekannten Parameterwert gibt. Weil sich eine solche Hypothese mit Hilfe eines Si­gni­fi­kanz­tests als null und nichtig erweisen soll, wird sie als Nullhypothese H0 bezeichnet. Es ist allerdings unmöglich, mit Hilfe eines Si­gni­fi­kanz­tests die Gültigkeit oder Ungültigkeit einer Hypothese zu beweisen. Das Ziel eines Si­gni­fi­kanz­tests besteht lediglich darin, eine Entscheidung darüber zu ermöglichen, ob die Nullhypothese H0 zugunsten einer Alternativhypothese H1 abgelehnt oder lieber beibehalten werden sollte. Dabei besteht stets die Gefahr eines Irrtums. Um die Wahrscheinlichkeit zu begrenzen, H0 irrtümlicher Weise zugunsten von H1 abzulehnen, wird vor dem Durchführen des Tests ein Si­gni­fi­kanz­ni­veau α vorgegeben, das als obere Schranke für diese Irrtumswahrscheinlichkeit dient.

Im Folgenden wird eine Bernoulli-Kette der Länge n mit einer unbekannten Erfolgswahrscheinlichkeit p betrachtet. Die zugehörige Zufallsvariable X, welche die Anzahl der Erfolge beschreibt, ist also binomialverteilt und soll als Prüfgröße dienen. Die Nullhypothese, H0p=p0, über den Wert von p wird nur dann zugunsten einer Alternativhypothese H1 abgelehnt, wenn der empirische Befund x auf dem Niveau α in einem statistisch si­gni­fi­kan­ten Gegensatz zu H0 steht, der für die Annahme von H1 spricht. Je nach Beschaffenheit von H1 kann man verschiedene Arten von Si­gni­fi­kanz­tests unterscheiden:

  • H1pp0 (beidseitiger Test)
  • H1p<p0 (linksseitiger Test)
  • H1p>p0 (rechtsseitiger Test)
  • H1p=p1 (Alternativtest)

Diese vier Arten von Si­gni­fi­kanz­tests können Sie im Folgenden – im Rahmen der klassischen Testtheorie – untersuchen. Aus didaktischen Gründen kann dabei als maximale Länge der Bernoulli-Kette nur der sehr kleine Wert 30 eingestellt werden. In der Praxis sind oftmals deutlich größere Werte sinnvoll.

Alternativhypothese H1

Entscheidungsregel

Bei jeder Art von Si­gni­fi­kanz­test muss eine Entscheidungsregel aufgestellt werden, nach der zu entscheiden ist, ob H0 zugunsten von H1 abgelehnt wird oder nicht. H0 wird nur dann zugunsten von H1 abgelehnt, wenn der empirische Befund x in die kritische Region Kα fällt, die stets mindestens die folgende Bedingung erfüllen muss:

P(XKα|H0)α.

Die Wahrscheinlichkeit, mit der die Nullhypothese H0 im Fall ihrer Gültigkeit trotzdem zugunsten von H1 abgelehnt wird, darf also nicht größer als das vorgegebene Si­gni­fi­kanz­ni­veau α sein. Ob ein empirischer Befund x diese – vor dem Durchführen des Tests festzulegende – Bedingung erfüllt, kann man auch prüfen, ohne zuvor die Grenzen von Kα bestimmt zu haben. Dazu berechnet man die Wahrscheinlichkeit, mit der man x oder einen noch stärker für das Ablehnen von H0 zugunsten von H1 sprechenden Befund erhielte, wenn H0 gültig wäre. Diese Wahrscheinlichkeit, die als empirisches Si­gni­fi­kanz­ni­veau¹ α bezeichnet wird, darf nicht größer als α sein:

αα.

Bei α handelt es sich nicht um eine Irrtumswahrscheinlichkeit, die nämlich eine Eigenschaft des Tests wäre, sondern um eine – von H0 abhängige – Eigenschaft eines einzelnen empirischen Befunds x, die nur dann für eine Testentscheidung herangezogen werden darf, wenn bereits vor dem Durchführen des Tests das vorgegebene Si­gni­fi­kanz­ni­veau α festgelegt worden ist. Ohne Kenntnis von α lässt sich nämlich keine Entscheidungsregel aufstellen, die für das Treffen einer seriösen Entscheidung notwendig ist und Aussagen über die Irrtumswahrscheinlichkeit überhaupt erst möglich macht.

Beim Aufstellen der Entscheidungsregel sind je nach Art des Si­gni­fi­kanz­tests spezielle Bedingungen, die ggf. zusätzlich erfüllt werden müssen, zu berücksichtigen.

Beidseitiger Test

Beim beidseitigen Test werden die kritischen Zahlen klinks und krechts der kritischen Region

Kα={0;1;;klinks}{krechts;krechts+1;;n}

so bestimmt, dass klinks die größte und krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

P(Xklinks|H0)α2P(Xkrechts|H0)α2

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=Min{2P(Xx|H0);2P(Xx|H0);1}α.

Linksseitiger Test

Beim linksseitigen Test wird die kritische Zahl klinks der kritischen Region

Kα={0;1;;klinks}

so bestimmt, dass klinks die größte derjenigen ganzen Zahlen ist, welche die Bedingung

P(Xklinks|H0)α

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=P(Xx|H0)α.

Rechtsseitiger Test

Beim rechtsseitigen Test wird die kritische Zahl krechts der kritischen Region

Kα={krechts;krechts+1;;n}

so bestimmt, dass krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

P(Xkrechts|H0)α

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=P(Xx|H0)α.

Alternativtest

Beim Alternativtest sind zwei Fälle zu unterscheiden. Im 1. Fall ist p1<p0 und im 2. Fall p1>p0.

1. Fall

Im Fall p1<p0 wird die kritische Zahl klinks der kritischen Region

Kα={0;1;;klinks}

so bestimmt, dass klinks die größte derjenigen Zahlen ist, welche die Bedingung

P(Xklinks|H0)αP(X=klinks|H1)>P(X=klinks|H0)

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=P(Xx|H0)αP(X=x|H1)>P(X=x|H0).

2. Fall

Im Fall p1>p0 wird die kritische Zahl krechts der kritischen Region

Kα={krechts;krechts+1;;n}

so bestimmt, dass krechts die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung

P(Xkrechts|H0)αP(X=krechts|H1)>P(X=krechts|H0)

erfüllen.

Ein empirischer Befund x fällt genau dann in die kritische Region Kα, wenn gilt:

α=P(Xx|H0)αP(X=x|H1)>P(X=x|H0).

Arten von Fehlern und ihre Wahrscheinlichkeiten

Grundsätzlich sind bei Si­gni­fi­kanz­tests – unter der Voraussetzung einer korrekten Durchführung – bis zu drei Arten von Fehlern möglich. Ein Fehler 1. Art wird begangen, wenn H0 gültig ist, aber zugunsten von H1 abgelehnt wird:

Fehler 1. Art: H0  XKα.

Wenn dagegen H1 gültig ist, aber H0 beibehalten wird, so wird ein Fehler 2. Art begangen:

Fehler 2. Art: H1  XKα.

Von einem Fehler 3. Art spricht man, wenn sowohl H0 als auch H1 ungültig sind und deshalb jede Testentscheidung falsch ist:

Fehler 3. Art: ¬H0  ¬H1.

Die folgende Tabelle soll einen Überblick über alle möglichen Fälle liefern, die beim Durchführen von Si­gni­fi­kanz­tests eintreten können.

Tatsächlicher Zustand der Wirklichkeit
Testentscheidung H0 ist gültig. H1 ist gültig. H0 und H1 sind ungültig.
H0 wird zugunsten von H1 abgelehnt. Fehler 1. Art Richtige Entscheidung Fehler 3. Art
H0 wird beibehalten. Richtige Entscheidung Fehler 2. Art

Bedauerlicher Weise lässt sich in der Regel keine der Wahrscheinlichkeiten, mit denen die drei möglichen Arten von Fehlern jeweils eintreten, berechnen, sondern bestenfalls ihr möglicher Maximalwert. Dies liegt daran, dass die Wahrscheinlichkeiten P(H0) und P(H1), mit denen H0 und H1 jeweils gültig sind, sowohl vor als auch nach dem Durchführen des Tests unbekannt sind. Andernfalls bedürfte es gar keines Tests. P(H0) und P(H1) lassen sich auch nicht abschätzen, um dadurch eine der beiden Hypothesen glaubwürdiger erscheinen zu lassen. Beide Hypothesen können nämlich nach der klassischen Testtheorie jeweils nur entweder gültig oder ungültig sein:

P(H0)P(H1)  {0;1}.

Im Spezialfall, in dem es als sicher gilt, dass H0 oder H1 gültig ist, – wie es beim beidseitigen Test der Fall ist – kann allerdings der Fehler 3. Art innerhalb des mathematischen Modells, das von einer binomialverteilten Prüfgröße ausgeht, ausgeschlossen werden:

P(H0H1)=1P(¬H0¬H1)=0.

Irrtumswahrscheinlichkeit 1. Art

Unter der Annahme, H0 sei gültig, lässt sich die bedingte Wahrscheinlichkeit berechnen, mit der man einen Fehler 1. Art beginge, falls H0 gültig wäre. Diese hypothetische Wahrscheinlichkeit, die durch das vorgegebene Si­gni­fi­kanz­ni­veau α nach oben beschränkt wird, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art:

Irrtumswahrscheinlichkeit 1. Art: P(XKα|H0).

Sie ist der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 1. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 1. Art auch noch die Wahrscheinlichkeit P(H0), mit der H0 gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 1. Art berechnen:

P(H0XKα)=P(H0)P(XKα|H0).

Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 1. Art passiert. Sie ist wegen P(H0){0;1} entweder gleich null oder gleich der Irrtumswahrscheilichkeit 1. Art:

P(H0XKα)={0 für P(H0)=0P(XKα|H0) für P(H0)=1.

Somit stellt das vorgegebene Si­gni­fi­kanz­ni­veau α nicht nur eine obere Schranke der (hypothetischen) Irrtumswahrscheinlichkeit 1. Art, sondern auch des Risikos, dass ein Fehler 1. Art passiert, dar.

Aus der bloßen Angabe des vorgegebenen Si­gni­fi­kanz­ni­veaus α lassen sich

P(XKα|H0)αP(XKα|H0)1-α

und auch

P(H0XKα)α

folgern. Über die Wahrscheinlichkeit P(H0XKα) weiß man dagegen nur, dass sie jeden Wert von 0 bis 1-P(XKα|H0) haben kann. Aus diesem Grund kann ein Testergebnis, welches das Beibehalten von H0 zur Folge hat, H0 auch nicht stützen. Wie wenig sich aus einem Testergebnis folgern lässt, wenn man lediglich weiß, ob es si­gni­fi­kant oder nicht si­gni­fi­kant zum Niveau α ist, soll das folgende Baumdiagramm verdeutlichen.

Die Kenntnis der maximalen Wahrscheinlichkeit des Fehlers 1. Art ermöglicht leider keine Aussage über die Wahrscheinlichkeit dafür, dass eine richtige Entscheidung getroffen worden ist. Die aus einer Irrtumswahrscheinlichkeit 1. Art von 5% gefolgerte Aussage „Die Testentscheidung für die Alternativhypothese ist dann entsprechend zu 95% richtig“, die der Autor auf der Homepage eines renommierten Unternehmens gefunden hat, das Dienstleistungen zur Statistik mit Tätigkeitsschwerpunkt Medizin und Pharmazie erbringt, ist also völlig falsch und auf erschreckend gefährliche Weise irreführend.²

Es stellt sich nun die Frage, welche Aussagen sich aus Kenntnissen über die Irrtumswahrscheinlichkeit 2. Art folgern lassen.

Irrtumswahrscheinlichkeit 2. Art

Unter der Annahme, H1 sei gültig, kann es – je nach Art des Si­gni­fi­kanz­tests – auch möglich sein, die bedingte Wahrscheinlichkeit zu berechnen, mit der man einen Fehler 2. Art beginge, falls H1 gültig wäre. Diese hypothetische Wahrscheinlichkeit bezeichnet man als Irrtumswahrscheinlichkeit 2. Art:

Irrtumswahrscheinlichkeit 2. Art: P(XKα|H1).

Diese Wahrscheinlichkeit ist allerdings nur dann definiert, wenn H1 einen konkreten Zahlenwert p1 für die unbekannte Erfolgswahrscheinlichkeit p festlegt, wie es beim Alternativtest der Fall ist. Dann ist sie der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 2. Art, die schließlich auch gleich null sein kann, haben kann.

Wenn zusätzlich zur Irrtumswahrscheinlichkeit 2. Art auch noch die Wahrscheinlichkeit P(H1), mit der H1 gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 2. Art berechnen:

P(H1XKα)=P(H1)P(XKα|H1).

Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 2. Art passiert. Sie ist wegen P(H1){0;1} entweder gleich null oder gleich der Irrtumswahrscheilichkeit 2. Art:

P(H1XKα)={0 für P(H1)=0P(XKα|H1) für P(H1)=1.

Güte eines Si­gni­fi­kanz­tests

Um die Güte eines Si­gni­fi­kanz­tests beurteilen zu können, genügt es nicht, nur die Irrtumswahrscheinlichkeiten 1. und 2. Art zu betrachten. Die Güte wird erst dann erkennbar, wenn man das Verhalten des Tests für alle möglichen Werte desjenigen Parameters, dessen tatsächlicher Wert unbekannt ist, untersucht. Diesem Zweck dient die Gütefunktion G, die jedem möglichen Parameterwert diejenige Wahrscheinlichkeit zuordnet, mit der die Nullhypothese abgelehnt werden würde, wenn es sich um den tatsächlichen Parameterwert der Wirklichkeit handelte.

Im obigen Beispiel der Bernoulli-Kette mit unbekannter Erfolgswahrscheinlichkeit p ordnet G jedem p[0;1] die zugehörige Ablehnwahrscheinlichkeit von H0 zu:

G(p)=P(XKα|p) mit p[0;1].

Am Graphen von G lässt sich u. a. erkennen, ob bereits kleinste Abweichungen von p0 zu einer hohen Ablehnwahrscheinlichkeit von H0 führen, was je nach Sachlage gar nicht sinnvoll ist.

Aufgabe

Viele Menschen, die zwar in der Lage sind, Signifikanztests – wie eine Maschine – korrekt durchzuführen, haben trotzdem Schwierigkeiten beim Interpretieren ihrer Ergebnisse. Dies liegt in der Regel an weit verbreiteten Fehlvorstellungen von der Bedeutung des Signifikanzniveaus. Deshalb können missbräuchlich interpretierte Testergebnisse genutzt werden, um Menschen zu täuschen oder gar zu manipulieren.

Testen Sie Ihr Wissen über die Bedeutung eines si­gni­fi­kan­ten bzw. nicht si­gni­fi­kan­ten Testergebnisses anhand der folgenden Aufgabe.

Bedeutung eines si­gni­fi­kan­ten bzw. nicht si­gni­fi­kan­ten Testergebnisses

Mit Hilfe eines Si­gni­fi­kanz­tests soll geprüft werden, ob die Abweichung eines empirischen Befunds x vom Erwartungswert μ0 der Nullhypothese H0 statistisch si­gni­fi­kan­t zum Niveau α=5% ist. Als Testergebnis sind zwei Fälle möglich:

1. Fall: nicht si­gni­fi­kan­tes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch nicht si­gni­fi­kan­t zum Niveau α=5% ist. H0 wird also beibehalten.

Auftrag

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem nicht signifikanten Testergebnis folgern lässt.

  1. Es ist nun bewiesen, dass H0 gültig ist.
  2. Die Wahrscheinlichkeit für die Gültigkeit der Alternativhypothese H1 beträgt höchstens 5%.
  3. Weil die Irrtumswahrscheinlichkeit 1. Art höchstens 5% beträgt, ist die Entscheidung für das Beibehalten von H0 entsprechend zu mindestens 95% richtig.
  4. Falls H1 gültig sein sollte, wäre die Entscheidung für das Beibehalten von H0 zu höchstens 5% falsch.
  5. Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens 95% der Fälle ebenfalls kein si­gni­fi­kan­tes Ergebnis zum Niveau α=5%.

2. Fall: si­gni­fi­kan­tes Testergebnis

Es stellt sich heraus, dass die Abweichung statistisch si­gni­fi­kan­t zum Niveau α=5% ist. H0 wird also zugunsten der Alternativhypothese H1 abgelehnt.

Auftrag

Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem signifikanten Testergebnis folgern lässt.

  1. Es ist nun bewiesen, dass H0 ungültig ist.
  2. Die Wahrscheinlichkeit für die Gültigkeit von H0 beträgt höchstens 5%.
  3. Weil die Irrtumswahrscheinlichkeit 1. Art höchstens 5% beträgt, ist die Entscheidung für H1 entsprechend zu mindestens 95% richtig.
  4. Falls H0 gültig sein sollte, wäre die Entscheidung für H1 zu höchstens 5% falsch.
  5. Bei häufiger Wiederholung des Tests erhielte man durchschnittlich in mindestens 95% der Fälle ebenfalls ein si­gni­fi­kan­tes Ergebnis zum Niveau α=5%.

Überprüfen Sie Ihr Ergebnis, nachdem Sie alle 10 Entscheidungen getroffen haben.

Das ist richtig!
Das ist leider falsch.

Fußnoten

  1. Beim empirischen Si­gni­fi­kanz­ni­veau handelt es sich um den sog. p-Wert, der in der Literatur leider oft als Irrtumswahrscheinlichkeit fehlinterpretiert wird.
  2. Der Glaube, statistische Tests könnten ein Instrument für die Wahrheitsfindung sein, scheint ohnehin unter Medizinern weit verbreitet zu sein. Darauf weisen viele in der Statistik-Literatur zu findenden Darstellungen von Missverständnissen im Medizinerkreis hin. Man sollte als Patient also kritisch nachfragen, wenn ein Arzt von einem signifikanten Studienergebnis spricht.

Abbildungen

  1. Baumdiagramm zum Signifikanztest