Критерий Гири в среде R
В.В. Заляжных

  Содержание            
Критерий Гири применяется для проверки гипотезы о соответствии непрерывной случайной величины нормальному распределению по выборке из неё. Статистика критерия:

рисунок st18-1,                                 (1)

Здесь рисунок st18-2, рисунок st18-3, n – объём выборки, xi – значения выборки.

Критерий двусторонний, гипотеза нормальности не отвергается при

dα/2 <= d <= d1-α/2,

Здесь α - допускаемый (выбираемый) уровень значимости, α/2 и 1-α/2 равны соответствующим значениям функции распределения критерия Гири.

Часто при проверке гипотез статистическими критериями рассчитывают достигаемый уровень значимости p-value, который более информативен, чем проверка по допускаемому уровню значимости.

p-value = 2min[F(d),1-F(d)],                (2)

где F(d) –значение функции распределения статистики критерия Гири.

Иначе говоря, при F(d) >= 0,5

p-value = 2[1-F(d)]

При F(d) < 0,5

p-value = 2F(d)

Некоторые процентные точки для статистики (1), полученные статистическим моделированием в MS Excel при моделировании 2 млн. выборок для каждого n, показаны в таблице 1.

Таблица 1. Процентные точки d(F) для статистики d

n F = α/2
0,005 0,01 0,025 0,05 0,1 0,2 0,3 0,4 0,5
30 0,698 0,709 0,726 0,740 0,756 0,774 0,787 0,797 0,807
50 0,719 0,728 0,741 0,752 0,764 0,778 0,788 0,796 0,803
n F=1-α/2
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
30 0,816 0,826 0,837 0,852 0,863 0,873 0,884 0,891
50 0,811 0,818 0,827 0,839 0,848 0,856 0,865 0,871

Расчёт статистики (1) и достигаемого уровня значимости для критерия Гири предусмотрен в популярной программной среде R, версия 4.0.2 (2020-06-22). Как указывают разработчики R, это свободное программное обеспечение, и оно поставляется без всяких гарантий.

В таблице 2 приведены расчёты в R по некоторым критериям нормальности с использованием выборок из стандартного нормального распределения, сгенерированных в R. Расчёты по критерию Гири в R проводятся методом статистического моделирования (методом Монте-Карло), число повторов для каждой выборки задавали равным 1 млн. Обозначения критериев в табл. 2: ШУ – Шапиро-Уилка, ЛФ – Лиллиефорса, ω2 омега-квадрат, АД – Андерсона-Дарлинга.

Таблица 2. Расчёты в R по критериям нормальности.

Выборка Гири ШУ ЛФ ω2 АД
n d p по R F=1-p p по (3) p по R
30 1 0,8089 0,4767 0,5233 0,9534 0,6536 0,9931 0,9169 0,8833
2 0,8677 0,0369 0,9631 0,0738 0,1747 0,0885 0,1002 0,1261
3 0,7804 0,7517 0,2483 0,4966 0,3212 0,2712 0,1439 0,1741
50 1 0,7991 0,5558 0,4442 0,8884 0,9673 0,8527 0,9547 0,9543
2 0,7795 0,7831 0,2169 0,4338 0,4553 0,5829 0,4671 0,5144
3 0,7411 0,9748 0,0253 0,0506 0,0562 0,1329 0,0604 0,0517
Сопоставив данные табл.2 и табл.1, нетрудно убедиться, что для критерия Гири

p = 1 – F                       (3)

Кроме того, соотношение (3) с высокой точностью подтверждается сравнением p, рассчитанных в R, и 1-F, рассчитанных статистическим моделированием в MS Excel. Расхождения не превышали 0,001. При этом к значениям p, рассчитанным в R по другим критериям, значительно более близки p по Гири, рассчитанные по (3) и (2), чем p, рассчитанное по R.

Таким образом, значения p, полученные в R по критерию Гири, ошибочны. Видимо, разработчики не учли, что критерий Гири двусторонний. Значения p следует пересчитывать в значения F по (3), а затем в действительные значения p-value в соответствии с (2).

ЛИТЕРАТУРА
1. . Ю. Лемешко, Критерии проверки отклонения распределения от нормального закона: Руководство по применению, Серия “Научная мысль”, ИНФРА-М, М., 2015, 160 с.

            Содержание

© В.В. Заляжных
Отзывы, замечания, предложения, комментарии - z9876543@rambler.ru
При использовании материалов ссылка на сайт обязательна
Рейтинг@Mail.ru