Healthcare and Medicine Reference
In-Depth Information
Um die Güte der Schätzung durch die Regressionsgerade generell zu beurteilen, bedarf es eines
Maßes, das alle Residuen berücksichtigt. Da sich die Residuen gegenseitig ausgleichen, sodass
deren Summe gleich 0 ist, legt man die Summe der Abweichungsquadrate e i 2 zugrunde. Diese
Summe ist ein Teil des Zählers der Varianz der y i -Werte, die sich aus zwei Komponenten zusam-
mensetzt:
n
n
−= −+ −
n
2
2
2
(
yy yy yy
i
)
(
)
(
)
(5.7)
i
i
i
i
=
1
i
=
1
i
=
1
Der Einfachheit halber sind in dieser Gleichung die Nenner ( n - 1) weggelassen. Der Term auf der
linken Seite des Gleichheitszeichens steht für die Gesamtvarianz der Beobachtungswerte y i . Der
erste Summand rechts vom Gleichheitszeichen bezieht sich auf die Varianz der Residuen e i (mit
dem Mittelwert 0), der zweite Summand auf die Varianz der aufgrund der Regressionsgleichung
berechneten Werte ˆ i . Den zweiten Teil der Gesamtvarianz bezeichnet man auch als die erklärte
Varianz . (Diese lässt sich nämlich durch die Gleichung der Regressionsgeraden erklären.) Der
erste Summand (die Residualvarianz ) ist dagegen auf die Abweichung der Beobachtungswerte
von der Regressionsgeraden zurückzuführen.
5
7
Gleichung (5.7) lässt sich also verbal folgender-
maßen formulieren:
Gesamtvarianz = Residualvarianz + erklärte Varianz
Es ist offensichtlich, dass die Schätzung durch die Regressionsgerade dann besonders gut ist,
wenn der Anteil der Residualvarianz möglichst klein und die erklärte Varianz entsprechend groß
ist. Andererseits gilt: Je kleiner die erklärte Varianz ist, desto schlechter können die y -Werte über
das Regressionsmodell geschätzt werden. Aus diesen Überlegungen ergibt sich, dass die erklär-
te Varianz im Verhältnis zur Gesamtvarianz ein geeignetes Maß für die Güte des statistischen
Modells darstellt. Es lässt sich nachweisen, dass dieser Quotient mit r 2 übereinstimmt:
n
2
(
yy
)
i
2
2
s
s
erkl rte Varianz
Gesam
y
y
i
=
1
2
r
=
=
=
(5.8)
n
tvarianz
2
(
yy
)
i
i
=
1
Man bezeichnet r 2 als das Bestimmtheitsmaß oder den Determinationskoeffizienten . Der
Wertebereich des Bestimmtheitsmaßes r 2 erstreckt sich zwischen 0 und 1 (
7 Beispiel 5.4). Im
Extremfall r 2 = 1 ist die Residualvarianz gleich 0.
Beispiel 5.4: Bestimmtheitsmaß
Aus r = 0,596 (
Beispiel 5.2) ergibt sich für den Determinationskoeffizienten: r 2 = 0,355.
Diese Zahl besagt, dass etwa 36% der Varianz des Gewichts durch das Modell der Regres-
sionsgeraden (also durch die Körpergröße) bedingt sind. 64% sind demnach durch ande-
re nicht im Modell berücksichtigte Einflüsse verursacht.
7
 
Search Pocayo ::




Custom Search