Оценка параметров распределения по выборке случайной величины
4.1. Введение.
Эта глава посвящена методам оценки по эмпирической выборке параметров распределения случайной величины. Будут указаны формулы для оценки центра распределения, дисперсии и показателей формы распределения, а также практические приемы удаления аномальных значений (промахов) из выборки.
4.2. Оценки центра распределения.
По возможности наиболее точная оценка центра распределения по выборке случайных величин исключительно важна, так как центр распределения используется в формулах для вычисления дисперсии, среднеквадратичного отклонения, коэффициента асимметрии и эксцесса распределения. Некорректное определение центра влечет за собой ошибки в определении всех этих величин.
Оценку центра распределения по выборке можно проводить различными способами. Не зная априорно закона распределения случайной величины, невозможно заранее указать наиболее приемлемый способ. К тому же, некоторые из этих оценок чувствительны к наличию аномальных значений в выборке (промахов).
Поэтому для корректной оценки центра распределения мы будем вычислять его пятью различными способами. После этого пять полученных оценок упорядочим по возрастанию и выберем из них в качестве центра распределения серединное, то есть третье по счету, значение.
Выборку случайных величин будем обозначать как {x
k}, к = 1,...,N. Упомянутые выше пять оценок центра по выборке следующие:
- медиана Х'медиана
,
- центр 50%-ного интерквантильного промежутка (центр сги
бов) Хцентр_сгибов
,
- среднее арифметическое по всей выборке X,
- среднее арифметическое по 50%-ному интерквантильному промежутку ^50% ,
- центр размаха Хцентр_размаха.
Серединное значение этих оценок будем обозначать как Хц
ЕНТР. Медиана
Перед вычислением медианы выборка {x
k} должна быть
упорядочена по возрастанию, после чего медиану можно определить следующим образом:
- если объем выборки N является нечетным, то
X медиана
X(N+1)/2
- если объем выборки N является четным, то
Xмедиана = i
XN/2 +
X(N/2)+1
)/2
Медиана нечувствительна к промахам в выборке.
Центр 50%-ного интерквантильного промежутка (центр сгибов)
Перед вычислением этой оценки выборка {x
k} также должна
быть упорядочена по возрастанию. Обозначим как М четвертую часть от объема выборки, то есть М=ЦЕЛОЕ(Ш4).
Тогда центр сгибов определяется по формуле:
Xцентр сгибов =
(XM+1 +
XN-M
) / 2
Центр сгибов нечувствителен к промахам в выборке.
Среднее арифметическое по всей выборке
Среднее арифметическое (выборочная средняя) является самым распространенным методом оценки центра распределения:
X,,
k=1
Эта величина является несмещенной и состоятельной оценкой математического ожидания (генеральной средней) и случайной переменной х. Несмещенность заключается в том, что математическое ожидание величины X равно и Состоятель
60
ность заключается в том, что при объеме выборки N ^ ж, значение величины X ^ ц.
Среднее арифметическое случайных величин само является случайной величиной. Дисперсия и среднеквадратичное отклонение среднего арифметического зависят от дисперсии и среднеквадратичного отклонения самой случайной величины и объема выборки:
D( X) = D / N = a
2/ N a( X) = a / 4N
Это соотношение справедливо для независимых данных с конечной дисперсией и с любым законом распределения. Таким образом, с.к.о. среднего значения меньше, чем с.к.о. самой случайной
величины в VN раз. Из этого следует, что точность оценки можно повысить путем увеличения объема выборки. Среднее арифметическое не защищено от промахов. Особенно большое влияние на него оказывают промахи при малом объеме выборки. При увеличении объема эта оценка становится все более устойчивой.
Среднее арифметическое по 50%-му интерквантильному промежутку
Перед вычислением этой оценки выборка {x
k} должна быть
упорядочена по возрастанию. Данная оценка является аналогом предыдущей, но усреднение проводится по усеченной на 25% слева и справа выборке. Если обозначить как М четвертую часть от объема выборки, то есть М=ЦЕЛОЕ(Ш4), то
N -М
X=
^ 50%
L 50%
лг _ ,
{ ^
Xk
N — 2М k =м+1
Среднее арифметическое по 50%-ному интерквантильному промежутку нечувствительно к промахам в выборке.
Центр размаха
Центр размаха определяется как среднее между максимальным и минимальным значением в выборке:
центр размаха
= [max(x
k ) + min( x
k )]/ 2
61
Центр размаха не защищен от промахов в выборке. Более того, в отличие от среднего арифметического, объем выборки оказывает гораздо меньшее влияние на точность этой оценки.
4.3. Оценка дисперсии и среднеквадратичного отклонения.
Оценки дисперсии и среднеквадратичного отклонения по выборке случайной величины {x
k}, к = 1,...,N вычисляются по формулам:
— 1 N _
D =-У (x
k - X)
2
N -1
к
о=VD
В случае небольших выборок и при наличии промахов
вместо среднего арифметического X следует применять Хц
ЕНТР.
Эти оценки называют еще выборочной дисперсией и выборочным с.к.о. Они определяют рассеяние случайной величины, однако сами также являются случайными величинами со своими показателями рассеяния.
Приближенные формулы для вычисления дисперсии и с.к.о. выборочной дисперсии, а также дисперсии и с.к.о. выборочного с.к.о. следующие:
D(D) *
|
b
1
S
|
о( D) = V D( D)
|
N
|
D(0) *
|
m4 - о
|
о(о) = ^j D(o)
|
4 No
|
где m4 - это
|
оценка четвертого центрального момента
|
|
распределения, которая приведена в следующем параграфе.
|
4.4. Оценка коэффициента асимметрии и эксцесса.
Оценки третьего и четвертого моментов распределения по выборке {x
k }, к = 1,...,N определяются как:
N
(N -1)(N - 2)
У (Xk - X)
3
к=1
62
т
4 =
(N -1)(N - 2)(N - 3) 3(2N - 3)
NZ (x, - X)2Z (x, - X)2
N(N -1)(N - 2)(N - 3) k=i ,=i
Следовательно, оценки коэффициента асимметрии и эксцесса можно найти по формулам:
_ 1 N
N —
Г = ^3^ Z(Xk -X)
3
(N -1)(N - 2) t=t N
2 - 2 N + 3
¦Z (x,. - X )4 -
3(2 N - 3)( N -1)
a (N -1)(N - 2)(N - 3) ?! N(N - 2)(N - 3)
В случае небольших выборок и при наличии промахов вместо
среднего арифметического X следует применять Хц
ЕНТР. Дисперсии оценок коэффициента асимметрии и эксцесса можно оценить как:
6(N -1)
(N +1)( N + 3)
24N(N - 2)(N - 3)
(N -1)
2(N + 3)(N + 5)
D(Y)
D(S)
Iy|/i/D(Y)
й/л/DY)
> 3, то распределение несим-< 3 , то асимметрия несущест
Считается, что если метрично. Если же
венна и ее наличие может быть объяснено случайностью выборки.
4.5. Исключение промахов из выборки.
Промахами в выборке случайных величин будем называть аномально отклоняющиеся от центра распределения значения по сравнению с основной массой данных.
В применении к ценам активов, эти аномалии могут быть вызваны сменой президента или правительства, банкротством крупных компаний, террористическими актами и т.п.
63
Решение о том, фильтровать промахи или нет, каждый принимает для себя сам. Однако следует учесть, что промахи могут существенно исказить оценку параметров распределения.
В этом параграфе излагается формализованная процедура удаления аномальных величин из выборки. Прежде всего, введем понятие коэффициента цензурирования. Коэффициент цензурирования - это безразмерная величина G, такая, что все значения из выборки {x
k}, лежащие за пределами интервала
Xцентр — G • ст < x < Xц
ЕНТР + G • ст, считаются промахами и
подлежат исключению из выборки.
Интуитивно понятно, что коэффициент цензурирования должен зависеть от объема выборки и рассчитанного по выборке значения эксцесса. Действительно, такое отклонение от центра, которое является промахом для средневершинного (а тем более плосковершинного) распределения, для островершинного распределения с его длинными "тяжелыми" спадами может безусловно принадлежать выборке.
Эмпирическая формула для коэффициента цензурирования как функции от объема выборки N и эксцесса s, пригодная к применению для широкого класса распределений следующая:
G = 1.55 + 0.8 • lg( N/10) -VS—Г.
Теперь все готово для написания алгоритма удаления промахов из выборки:
1) Вычислить величину Хц
ЕНТР,
2) Вычислить оценку среднеквадратичного отклонения ст , при этом в качестве центра распределения использовать Хц
ЕНТР,
3) Вычислить оценку эксцесса S, при этом в качестве центра распределения использовать Хц
ЕНТР,
4) Вычислить коэффициент цензурирования G,
5) Исключить из выборки значения, лежащие за пределами
интервала Xц
ЕНТР — G • ст < x < Xц
ЕНТР + G • ст
После удаления промахов нужно пересчитать параметры распределения. При этом в качестве центра распределения уже
можно использовать среднее арифметическое X, как состоятельную и несмещенную оценку математического ожидания.
Содержание раздела