Kovarianz

COV(X,Y) = E((X-E(X))*(Y-E(Y)))

Anschauliche Deutung

(nach Burkhard Heise: "Computerunterstützte Statistik". Addisson Wesley 1994, ISBN 3-89319-623-4)

Falls kleine/groß Werte von X mit kleinen/grossen Werten von Y zusammentreffen → COV(X,Y) > 0
Falls kleine/große Werte von X mit großen/kleinen Werten von Y zusammentreffen → COV(X,Y) < 0
falls unabhängig → COV(X,Y) ≈ 0

Der Zusammenhang der Variablen ist um so stärker, so grösser BETRAG(COV(X,Y))

Der Korrelationskoeffizient R = COV(X,Y)/S(X)*S(Y) normiert die Kovarianz zu R ∈ |-1.0 .. 0.1| und ist dimensionslos.

zu beachten:

(ebenfalls Heise):

Die Kovarianz ist nur bei linearen Zusammenhängen zu gebrauchen
Es muß kein inhaltlicher Zusammenhang bestehen, obwohl der Korrelationskoefizient groß ist, (insbesondere bei Zeitreihen).

Verschiebesatz

COV(X,Y) = E((X-E(X))*(Y-E(Y)))
= E(X*Y-X*E(Y)-E(X)*Y+E(X)*E(Y)) ; E(Konstant)=Konstant, heraus
= E(X*Y)-E(X)*E(Y)-E(X)*E(Y)+E(X)*E(Y)
= E(X*Y)-E(X)*E(Y)

Diese Umformung erleichtet die Rechnungen ungemein, da nun die Mittelwerte nicht mehr vorherberechnet werden müssen - damit entfällt die Notwendigkeit der Speicherung.

Mit VAR(X)=COV(X,X) ist auch der selbe Trick bei der Varianzberechnung hergeleitet.

Numerische Bedenken

Wikipedia über Kovarianz weist darauf hin, dass der oben bewiesene Verschiebungssatz numerisch ungünstiger ist: Die Berechnung der Summe X*Y wird groß und führt damit zu Rundungsfehlern.

Bei grupstich(1) ignorieren wir dieses, zugunsten der Gedächtnislosigkeit und der damit verbunden Effizienz.

Informatik- und Netzwerkverein Ravensburg e.V Rudolf Weber