Распределения "хи-квадрат", Стьюдента и Фишера
При построении статистических моделей нормальному закону безусловно принадлежит центральное место. Однако попытки использовать его для моделирования распределения эмпирических данных в любом случае не всегда обоснованными. Более существенно то, что многие методы обработки данных основано на расчетных величинах, имеющих хотя и другие, но близкие распределения к распределению нормального. Кроме того, с помощью нормального закона определяются широко распространены в математической статистике распределения х 2 (хи-квадрат), и Стьюдента и Б Фишера.
Распределение / 2 (хи-квадрат) - это распределение случайной величины
X = X 2 + X2 2 + ... + X n 2, (3.61)
где случайные величины X 1, X 2, X n независимы и имеют тот же стандартное нормальное распределение N (0,1). Количество слагаемых п называется "числом степеней свободы" распределения хи-квадрат.
Распределение и Стьюдента - это распределение случайной величины
т =% (3.62)
где случайные величины и и X независимы, и имеет стандартное нормальное распределение N (0,1), а X - распределение хи-квадрат с п степенями свободы. При этом п называется "числом степеней свободы" распределения Стьюдента.
Распределение Б Фишера - это распределение случайной величины
б = к -, (3.63)
где случайные величины Х 1 и Х 2 - независимые и имеют распределения хи-квадрат с числом степеней свободы к 1 и к 2 соответственно.
Итак, распределения х 2 (хи-квадрат), й Стьюдента и Б Фишера являются производными от нормального закона. Рассмотрим свойства этих распределений подробнее.
Распределение / 2 "хи-квадрат" можно получить по схеме повторных испытаний, если из генеральной совокупности нормально распределенных значений с нулевым средним (м = 0) и единичным стандартным отклонением (в = 1) случайным методом изымать независимо п значений X 1, X 2 , X n, а затем рассчитывать сумму их квадратов (X 1) 2 + (X 2) 2 + ". + (X ,,) 2. В результате многократных испытаний значение этих сумм будут иметь распределение Хп 2 (хи-квадрат) с п степенями свободы. Аналитическая форма записи плотности распределения Хп 2 имеет вид:
^ Хп) = п 1 / п х 21 o е (3.64)
где / у 2 (х, п) - функция плотности распределения х 2; п - число степеней свободы; Г () - гамма-функция, которая удобно рассчитывается в Excel с помощью выражения = EXP (rAMMAbMOr ()). Функция f х2 (x, и)> 0 для x> 0 и f х2 (x, и) = 0 для x <0.
На рис. 3.49. показано расчеты значений и графики плотности распределения ^ 2 для трех степеней свободы (2, 3 и 5).
Рис. 3.49. Расчеты и графики плотности распределения%
Для расчета распределения х 3 числом степеней свободы, например, п = 2 необходимо внести:
o в ячейку В2 выражение = 1ИЕХР (ГАММАНЛОГ (Б $ 1и2))
o в ячейку В3 выражение = Б2И2 Л (Б $ 1и2)
o в ячейку В5 выражение = Б $ 3 * $ А5 Л (Б $ 1И2-1) * ЕХР (- $ А5И2)
o в ячейки В6: В15 - аналогичные выражения.
В столбцах С и Б рассчитано значение распределения х для числа степеней свободы п = 3 и n = 5.
Как видно из графиков, при увеличении числа степеней свободы п распределение% приближается к нормальному распределению со средним п и стандартным отклонением л / 2й. Если дисперсию можно записать как сумму квадратов п независимых случайных значений испытаний Х 1, Х 2, Х п, например,
"И = Л (и Х, 2 - ПХ 2) = (Х 2 + Х 2 + ... + Х 2) - ^,
п - 1, - = 1 п -1 п -1
то величина 8 Х 2 может иметь распределение / 2 ". Поэтому естественно, что распределения х используют в статистических выводах относительно дисперсий (см. 5.4).
Распределение и Стьюдента. Свойства нормального распределения можно использовать только тогда, когда объем выборки п "достаточно большим" - на это обращает внимание центральная предельная теорема. Однако в реальных условиях объем выборки, как правило, не является "достаточно большим". В этих условиях используют другие распределения. Одним из важнейших считается распределение Стьюдента:
Г '(Х, п) = ^ Г п ^ + Т], (3.65)
где / и (х, п) - функция плотности распределения Стьюдента; п - число степеней свободы; Г () - гамма-функция.
На рис. 3.50. показано расчеты распределения Стьюдента для степеней свободы (1, 2 и 8) и для сравнения соответствующие значения нормального распределения.
Для расчета плотности распределения Стьюдента с числом степеней свободы п = 1 необходимо внести:
o в ячейку В2 выражение = ЕХР (ГАММАНЛОГ ((Б $ 1 + 1) / 2));
o в ячейку В3 выражение = ЕХР (ГАММАНЛОГ (Б $ 1/2));
o в ячейку В4 выражение = В2 / В3 / КОРЕНЬ (Б $ 1 * ПИ ());
o в ячейку В7 выражение = В $ 4 * (1 + $ А7 л 2 / В $ 1) л (- (В $ 1 + 1) / 2);
o в ячейки В8: В19 внести аналогичные выражения;
В столбцах С и Б рассчитано значение распределения Стьюдента для числа степеней свободы п = 2 и п = 8. В столбце Е - значение плотности нормального распределения, для чего, например, в ячейку Е7 следует внести выражение = НОРМРАСП (А7, 0, 1, 0).
Распределения Стьюдента для трех степеней свободы (1, 2 и 8) можно рассчитать с помощью функции = СТЬЮДРАСП (). Так, в ячейку Р7 необходимо внести = СТЬЮДРАСП (АВ8 ($ А7) Р $ 1, 1), аналогичные выражения внести в ячейки Р8: Р13. В ячейку Б14 внести = 1-СТЬЮДРАСП (АВ8 ($ А14) Р $ 1, 1), аналогичные выражения внести в ячейки Р15: Р19. Такие же действия провести в столбцах в и Н.
Рис. 3.50. Значение распределений Стьюдента и распределения N (0,1)
Для расчета нормального распределения в ячейку 17 внести выражение = НОРМРАСП (Л7, 0, 1, 1), аналогичные выражения внести в ячейки 18: 119.
На рис. 3.51. показано семейство графиков распределения Стьюдента для трех степеней свободы (1, 2, 8), а также график стандартного нормального распределения N (0,1).
Как видно, при увеличении числа степеней свободы п распределения Стьюдента асимптотически приближаются к нормальному распределению. Когда объем выборки п становится "достаточно большим", то есть практически п - "со, распределения Стьюдента совпадают с нормальным распределением. Чаще распределения Стьюдента используют в статистических выводах относительно средних (см. 5.4).
Распределение Б Фишера можно получить, используя схему повторных испытаний, когда из генеральной совокупности нормально распределенных значений с параметрами (м = 0 и в = 1) случайным методом сначала формируют первую переменную х 1 с распределением "хи-квадрат" и степенями свободы п, а затем независимым путем формируют вторую переменную х 2 с распределением "хи-квадрат" и степенями свободы т. Новая случайная величина, имеющая свойства распределения Фишера, будет состоять из отношения
г. = Х ± / Х ±. (3.66)
п / т
Функция плотности распределения Фишера имеет вид
где / р (х, п, т) - функция плотности распределения Фишера; п и т - число степеней свободы; Г () - гамма-функция.
На рис. 3.52. показано расчеты и графики плотности распределения Фишера для трех наборов степеней свободы п и т (2 и 3, 5 и 4, 20 и 4 соответственно).
Для расчета распределения Фишера, например, с числом степеней свободы п = 2 и т = 3 необходимо внести:
o в ячейку В3 выражение = ЕХР (ГАММАНЛОГ ((Б $ 1 + Б $ 2) I 2));
o в ячейку В4 выражение = ЕХР (ГАММАНЛОГ (Б $ 1и2))
o в ячейку В5 выражение = ЕХР (ГАММАНЛОГ (Б $ 2И2))
o в ячейку В6 выражение = Б3ИБ4ИБ5 * (Б $ 2ИБ $ 1) Л (Б $ 2И2)
o в ячейку В7 выражение = Б $ 6 * $ Л8 л (Б $ 2И2-1) * (1 + Б $ 2ИБ $ 1 * $ Л8) л (- (Б $ 2 + Б $ 1) I 2)
o в ячейки В8: В18 - аналогичные В7 выражения.
Рис. 3.52. Значение и графики плотности распределения Фишера
В столбцах С и D рассчитано значение распределения Фишера для других наборов числа степеней свободы n и m. Из рис. 3.52. видно, что при увеличении числа степеней свободы n и m распределение Фишера приближается к нормальному распределению со средним m / (n-2). Функция f F (x, n, m)> 0 для x> 0 и f F (x, n, m) = 0 для x <0. Распределение Фишера является теоретической базой дисперсионного анализа, основанный на сопоставлении дисперсий выборок случайно извлеченных из нормальной совокупности, отношение которых составляет F-критерий Фишера: F = s // s 2 2, где sj 2 и s 2 2 - дисперсии первой и второй выборок (см. раздел 5.4).
Для сравнения свойств распределений "хи-квадрат", Стьюдента и Фишера их характеристики представлены в табл. 3.8.
На свойствах нормального распределения, распределений Стьюдента, Фишера хи-квадрат построены математические методы статистического оценивания, проверки статистических гипотез, дисперсионный анализ. (см. разделы 5 и 6). Таблицы значений этих распределений можно найти в специальной литературе или воспользоваться соответствующими функциями MS Excel, в частности: = НОРМРАСП () = НОРМСТРАСП () = ХИ2РАСП () = СТЬЮДРАСП () = FPACn ().
Таблица 3.8
Характеристики распределений
Вопрос. Задача.
1. О чем утверждает теорема Бернулли?
2. При каких условиях "работает" биномиальное распределение?
3. Как выглядят графики дифференциального и интегрального биномиального распределения?
4. Какова основная идея общей методики использования теоретических функций на примере биномиального распределения в решении реальных задач?
5. Раскройте особенности функций плотности нормального распределения и функции нормального распределения.
6. Охарактеризуйте стандартное нормальное распределение.
7. Чем отличаются распределения Стьюдента, Фишера и "хи-квадрат" от нормального распределения?
8. Повторите математические процедуры задач по примеру 3.19.
9. Выполните лабораторную работу № 8.