Healthcare and Medicine Reference
In-Depth Information
i
Das Wort »Regression« geht zurück auf den englischen Naturforscher Francis Gal-
ton (1822-1911; ein Cousin Charles Darwins), der die Beziehung zwischen den
Körpergrößen von Vätern und ihren Söhnen untersuchte. Wie er herausfand,
haben die Söhne großer Väter und die Söhne kleiner Väter eine Körpergröße, die
weniger vom Durchschnittswert abweicht als die Größe der Väter. Dieses Phäno-
men bezeichnete er als »Regression« (Rückschritt zum Mittelwert). Galtons Freund
Karl Pearson hat in 1.078 Familien die Größen von Vätern und Söhnen verglichen
und seine Ergebnisse zusammen mit dem nach ihm benannten Korrelationskoeffi-
zienten im Jahre 1903 veröffentlicht. Im Laufe der Zeit wurde der Begriff »Regres-
sion« allgemein verwendet, um den stochastischen Zusammenhang zwischen
zwei oder mehr Merkmalen zu beschreiben.
5
Aufgrund sachlogischer Überlegungen sollte man vorab klären, welches der beiden
Merkmale man sinnvollerweise als das unabhängige x -Merkmal bzw. als das abhängige
y -Merkmal bezeichnet. Für praktische Zwecke ist es naheliegend, dasjenige Merkmal
als das x -Merkmal anzusehen, das sich einfacher, billiger oder früher erfassen lässt. Ist
diesbezüglich keine Entscheidung möglich, ist die Herleitung einer Regressionsglei-
chung nicht sinnvoll. In diesem Fall sollte man sich darauf beschränken, den Zusam-
menhang durch einen Korrelationskoeffizienten zu beschreiben.
Die einfachste Form der Regressionsanalyse ist die Darstellung des Zusammen-
hangs durch eine Gerade. Dies ist erlaubt, nachdem man sich davon überzeugt hat,
dass der zu beschreibende Zusammenhang annähernd linear ist. Wie ein Blick auf die
Punktwolke ( . Abb. 5.1 ) deutlich macht, kann es bei stochastischen Zusammenhän-
gen keine Gerade geben, auf der alle Punkte liegen. Dies ist dadurch begründet, dass
das y -Merkmal nicht nur vom x -Merkmal, sondern auch von anderen Faktoren beein-
flusst wird, die in der Geradengleichung nicht berücksichtigt sind.
Die Regressionsgerade ist so konstruiert, dass das durchschnittliche Abstands-
quadrat der Beobachtungspunkte von der Geraden minimal ist. Sie ist eindeutig be-
stimmt durch die Steigung
s
s
xy
x
b
=
(5.3)
2
und den y -Achsenabschnitt
ay x
=−
.
(5.4)
Dabei sind s xy die in 7 Abschn. 5.2.3 eingeführte Kovarianz, und s x 2 ist die Varianz
der x -Werte. Der Parameter b wird als Regressionskoeffizient bezeichnet. Aus 7 For-
mel (5.3) geht hervor, dass der Wertebereich von b nicht beschränkt ist. Wie ein Ver-
gleich mit 7 Formel (5.2) zeigt, stimmen die Vorzeichen der Steigung b und des Korre-
lationskoeffizienten r überein. Das bedeutet: Bei einem gleichsinnigen Zusammen-
Search Pocayo ::




Custom Search