Корреляция случайных величин
7.1. Введение.
Существует два типа зависимостей между переменными: функциональная (строго детерминированная) и статистическая (стохастически детерминированная).
В случае функциональной зависимости каждому значению одной переменной соответствует одно или несколько строго заданных значений другой переменной. Функциональная связь двух переменных возможна, если вторая переменная зависит от первой и ни от чего более. На практике таких связей не существует, то есть функциональная связь является упрощающей реальность абстракцией.
В случае статистической связи каждому значению одной величины соответствует определенное распределение вероятности другой величины. Это связано с тем, что в любой математической модели на описываемый показатель влияют не только явным образом входящие в модель переменные, но и большое количество факторов, которые существуют в действительности, но не учитываются моделью, причем часть из этих факторов -это случайные величины. Этим можно объяснить случайный характер многих финансовых переменных и взаимосвязей между ними.
Важнейшим частным случаем статистической связи является корреляционная связь, когда каждому значению одной переменной соответствует определенное математическое ожидание другой переменной, и при изменении значения одной величины математическое ожидание другой величины изменяется закономерным образом. Если же при изменении значения одной переменной закономерным образом изменяется другая статистическая характеристика второй переменной (дисперсия, асимметрия, эксцесс и т.д.), то связь является статистической, но не корреляционной. Данная глава посвящена изучению линейной корреляционной связи между случайными величинами.
7.2. Функция регрессии.
Рассмотрим две непрерывные случайные величины Хи Y. Тогда вероятность того, что в некотором испытании величина Х
окажется в интервале от x до x + dx, а величина Y окажется в интервале от y до y + dy равна p
xy (x, y)dxdy. Величина
p
xy (x, y) называется плотностью двумерного распределения вероятностей величин Х и Y.
Для двумерного распределения вероятностей плотность распределения координат х и у выражается формулами:
+ад
Px
(x) = j Pxy
(x> y
)dy
—ад
+ад
Py
(y
) = j Pxy
(x> y)
dx
—ад
Случайные величины Х и Y находятся в корреляционной зависимости, если:
- каждому значению переменной Х соответствует определенное математическое ожидание переменной Y,
- каждому значению переменной Y соответствует определенное математическое ожидание переменной Х.
Рассмотрим условное распределение вероятности переменной Y при фиксированном значении переменной Х. Оно описывается условной плотностью распределения:
Py|x
(x> y
) = Pxy
(x> y
)/ Px
(x)
Используя условную плотность распределения можно найти математическое ожидание случайной величины Y , при условии того, что случайная величина Х равна фиксированному значению х (условное математическое ожидание):
+ад
My\x
(x) = j y ¦ Py\x
(x. y
)dy
—ад
Условное математическое ожидание M
y^
x (x) называют еще
функцией регрессии Y на Х. Функция регрессии обладает важнейшим свойством: среднеквадратичное отклонение случайной величины Y от функции регрессии Y на Х меньше, чем ее среднеквадратичное отклонение от любой другой функции от х.
Если функцию регрессии можно удовлетворительным образом аппроксимировать линейной зависимостью, то такая регрессия
92
называется линейной. Линейная регрессия обладает тем свойством, что если регрессия Y на Х линейна, то регрессия X на Y также линейна.
Заметим, что функции регрессии X на Y и Y на Х не являются взаимно обратными и соответствующие линии регрессии совпадают только в случае, когда величины Y и Х связаны функционально. Если эти величины связаны корреляционно, то линии регрессии X на Y и Y на Х различны.
В дальнейшем мы ограничимся рассмотрением только тех случаев, когда функция регрессии является линейной.
7.3. Линейная корреляция.
Корреляционная зависимость между случайными величинами X и Y называется линейной корреляцией, если обе функции регрессии X на Y и Y на Х являются линейными.
Пусть математическое ожидание и дисперсия случайной величины Х равны уі
х,о
x , а математическое ожидание и
дисперсия случайной величины Yравны у
у ,о
2у .
Выведем уравнение регрессии Y на Х, то есть найдем коэффициенты линейной функции у = ax + b .
1) Выразим коэффициент b через математические ожидания X и Y
/л
у = M (у) = M (ax + b) = aM (x) + b = ay
x + b
b = My
- aM
x
2) Тогда уравнение регрессии можно переписать в виде у = ax + у
у - ay
x
у
-у =
a •
(x-Л
)
3) Найдем коэффициент регрессии а через математическое ожидание произведения случайных величин X и Y
M(xy) = M[x(ax + у
у - ay
x )]
M(xy) = aM(x
2) + M(x)y
y - aM(x)y
x M ( ту) =
aM (x 2) + л Л у
- aM
2x
93
М (xy
) = a[M
(x 2)
- ^
2] + <u
xJu
y М (xy) =
a&
2x + М
ХМ
У
a=
М(ХУ
) -М
хМу
4) Назовем коэффициентом корреляции между X и Y следующую безразмерную и симметричную относительно X и Y величину
(x -М
Х ) (y ~Vy
)
М [(x -М
Х)(У
- Му
)]
o
x
о
У
°х°У
V
x У
5) Тогда математическое ожидание произведения случайных величин X и Y можно выразить через коэффициент корреляции
М (xy
) =
М [(x -у
х + у
х )(У
-М
У + М
У )]
М (xy) =
М [(x - Ux
)(У
-Uy
)] + ММ
(У
-Uy
) +
+ Му
М (x -Ux
) + ММу
М (xy
) =
М [(x - М
х )(У
- Му
)] + ММ у
М ( xy
) = р°
х°
у + ММ у
6) Окончательно для коэффициента регрессии Y на Х получаем
a = Р
- (оУ !°x
)
7) В итоге уравнение регрессии Y на Х приобретает вид У
-Му = Р
-(оУ !°x
) •
(x-М
Х)
Тангенс угла наклона, под которым эта прямая пересекает ось х равен р • (о
У / о
х ) .
8) Аналогично можно получить уравнение регрессии Х на Y
x-М
Х = Р
-(°
Х/оУ
)-(У
-Му
)
Тангенс угла наклона, под которым эта прямая пересекает ось х равен (1/ р) • (о
У / o
x ) .
Заметим, что прямые регрессии Y на Х и Х на Y пересекают ось х под разными углами. Эти прямые совпадают только тогда, когда модуль коэффициента корреляции | р |= 1. Обе прямые регрес
94
сии проходят через центр двумерного распределения вероятностей величин Х и Y - точку с координатами (/л
х, /л
у ).
7.4. Коэффициент корреляции. Ковариация.
Рассмотрим подробнее введенный в предыдущем параграфе коэффициент корреляции. Было выяснено, что он равен
М(ху
) - М
хМу
f (X -?
Х ) (У ~?у
) ^
а
х
О
У
Рху =Рух =
М
? “
х “у J
Следовательно, коэффициент корреляции характеризует относительное отклонение математического ожидания произведения двух случайных величин от произведения математических ожиданий этих величин. Так как отклонение имеет место только для зависимых величин, то коэффициент корреляции характеризует степень этой зависимости.
Коэффициент корреляции обладает следующими свойствами:
1) Линейные преобразования случайных величин Х и Y не
изменяют коэффициента корреляции между ними
р( х, У) = Р(
ао +
аі х, Ь + Ьі у) для любых констант a
0, a
1 > 0, Ь
0, Ь
1 > 0.
2) Коэффициент корреляции случайных величин Х и Y заключен в пределах между -1 и +1, достигая этих крайних значений только в случае линейной функциональной зависимости между Х и Y.
3) Коэффициент корреляции между независимыми случайными величинами равен нулю.
Обратное утверждение вообще говоря неверно, то есть если коэффициент корреляции равен нулю, то это не означает независимости соответствующих величин. В этом случае говорят, что величины некоррелированы.
Как уже говорилось выше, коэффициент корреляции является безразмерной величиной. Произведение коэффициента корреляции на среднеквадратичные отклонения случайных величин Х и Y имеет размерность дисперсии и называется ковариацией случайных величин Х и Y:
со?(х, у
) = &ху = а ух = М [
(X - ц
х)(у
- Цу)] = М
(ху)
- /л
х^
у
95
7.5. Математическое ожидание и дисперсия линейной комбинации случайных величин.
В этом параграфе мы рассмотрим правила вычисления математического ожидания и дисперсии многомерной случайной величины, являющейся линейной комбинацией коррелированных случайных величин:
a0 +Z
ak
xk
a0 +Z
ak
xk
f N Л f N Л
V k=1 J V k=1
Математическое ожидание
Математическое ожидание обладает следующими свойствами:
1) Постоянный множитель можно выносить за знак математического ожидания
M (ax) = aM (x) = a^
x
2) Математическое ожидание суммы случайной величины и константы равно сумме математического ожидания этой величины и константы
M (x + a) = M (x) + a = /л
х + a
3) Математическое ожидание суммы случайных величин равно сумме их математических ожиданий
M (x + у
) =
M (x) +
M (y
) = +ц
у
Следовательно, для линейной комбинации произвольного количества случайных величин получаем
f N Л N N
ao +Z
ak
xk
=
a0 +Z
ak
M (xk
) =
ao +Z
akVk
V k=1 J k=1
k=1
Дисперсия
Аналогичные свойства для дисперсии следующие:
1) Постоянный множитель можно выносить за знак дисперсии, возведя его в квадрат
D(ax) = a
2 D( x) = a
2&2
2) Дисперсия суммы случайной величины и константы равна дисперсии случайной величины
D( x + a) = D( x) = <jx
96
3) Дисперсия суммы случайных величин равно сумме их дисперсий плюс удвоенное произведение их коэффициента корреляции на среднеквадратичные отклонения
D(х + у
) = М[(
x + у
) - (р
х + и
)]2 =
=
М(х - их
)2 +
М(У
-Uy
)2 +
2М[(х - Ux
)(У
-Uy
)] =
= ^ +о) +
2Рху°х°у
Следовательно, для линейной комбинации произвольного количества случайных величин получаем
a +Z
ал
+
2'Z'Z
a,
ak Ргк°г°к
С N \ N N N
22
V k=1 J k=1 k=1 i=k+1
Если все случайные величины независимы, то так как коэффициенты корреляции для различных случайных величин равны 0, а коэффициент корреляции случайной величины с самой собой равен 1, формула упрощается
a0 +Z
ak
xk
22
ak°k
С N \ N
V k=1 J k=1
Полученные выражения для математического ожидания и дисперсии линейной комбинации произвольного количества коррелированных случайных величин позволяют сделать следующие выводы:
- математическое ожидание линейной комбинации случайных величин - это взвешенная сумма математических ожиданий отдельных случайных величин,
- дисперсия линейной комбинации случайных величин - это взвешенная сумма ковариаций всех пар случайных величин, при этом вес каждой ковариации равен произведению весов соответствующей пары случайных величин, а ковариация случайной величины с самой собой является дисперсией данной величины.
7.6. Оценка ковариации и коэффициента корреляции по выборке случайных величин.
Для оценки ковариации и коэффициента корреляции между случайными величинами Хи Y мы должны располагать двумя соответствующими друг другу выборками этих величин:
97
К },{y
k }
Оценка ковариации
В качестве оценки математического ожидания случайных величин Х и Y используем средние арифметические значения по соответствующим выборкам:
_ 1 N _ 1 N
X=NZ*k
Y=N?-yk
k=1 k=1
Тогда выборочная ковариация случайных величин Х и Y задается формулой:
аху = N“7 ?
(Xk
- X}
(Ук
- Y)
N - 1 k =1
Оценка коэффициента корреляции
Для оценки коэффициента корреляции между случайными величинами Х и Y нам понадобятся выборочные среднеквадратичные отклонения этих величин:
7?(y„ - Y)
2
1 k=1
7? (Xk - X )
2
1 k=1
ах =
О
2 =
N-
Тогда выборочный коэффициент корреляции случайных величин Х и Y задается формулой:
?(xk- X)(yk- Y)
k=1
|
N
|
N
|
? (Xk - X)2
V k=1 1
|
? (yk - Y)2
k=1
|
|
Дисперсию и с.к.о. выборочного коэффициента корреляции
|
-
СТху
Рху =--=-
а -а
X У
можно оценить как
2 О -РХу )
2
а
р = -
1-Р
хУ
ар Vn -1
N-1
98
7.7. Оценка коэффициентов линейной регрессии по выборке случайных величин.
В параграфе 7.3 было получено, что в случае, когда величины Х и Y представлены своими генеральными совокупностями, уравнение регрессии Y на Х имеет вид:
У
-Uy = р\
оу
/ох
) • (х
-іл
х )
Следовательно, так как р • (o
y /о
х) = о
xy / о\ , то коэффициенты (a, b) линейной регрессии y = ax + b можно представить в виде:
a =
GXy
/0 b = Vy -
a^x
Переходя к выборочным оценкам получаем:
Е
(xk
- X)(yk
- Y)
к=1
Е?к -N-X-Г
к=1
N _ _ N
a=
Е (Хк - X f
Е хі
к=1
к=1
b = Y - a X
Аналогичным образом можно получить оценку коэффициентов линейной регрессии Х на Y.
7.8. Линейная регрессия как наилучшая оценка по методу наименьших квадратов.
Докажем, что полученные в предыдущем параграфе оценки коэффициентов линейной регрессии Y на Х определяют такую прямую линию, что сумма квадратов отклонений величины Y от этой прямой имеет минимальное значение, по сравнению с суммой квадратов отклонений величины Y от любой другой прямой.
Пусть величины Х и Y представлены своими выборками:
{хк Шк
} k =
1,-,
N
Предположим, что зависимость величины Y от величины Х можно аппроксимировать прямой линией y = ax + в . Найдем
коэффициенты а и Д которые минимизируют сумму квадратов отклонений величины Y от этой прямой:
99
S = 2
(Ук
-ахк
-в)
к=1
Возьмем частные производные S по а и по Д и приравняем их к нулю: dS
N
дв=
-22
(Ук
-ахк
-в) =
0
дв к=1
да=
-22
хк
(Ук
-ахк -Р) =
0
да к=і
Следовательно:
2 Ук
-а2
хк
-pN =
0
к=1
к=1
2 хкУк -а2 х -p2 хк =0
к=1
к=1
к=1
Из первого уравнения этой системы следует, что
I N 1 N _ _
в=N 2 Ук
-aN 2
хк =
Y-а'
х
к=1 к=1
Подставив это выражение во второе уравнение системы после несложных преобразований получим:
2 ХкУк - N ¦ X ¦ Y
а=
к=1
2 х2 - N ¦ х к=1
Использованный метод поиска коэффициентов а и в называется методом наименьших квадратов. Сравнивая коэффициенты а и вс полученными в предыдущем параграфе выборочными коэффициентами линейной регрессии видим, что они совпадают. Следовательно, утверждение о том, что коэффициенты линейной регрессии Y на Х определяют такую прямую линию, что сумма квадратов отклонений величины Y от этой прямой имеет минимальное значение, по сравнению с суммой квадратов отклонений величины Y от любой другой прямой, доказано.
Содержание раздела