,                                 (1)
Здесь ,
, n – объём выборки, xi – значения выборки.
Критерий двусторонний, гипотеза нормальности не отвергается при
dα/2 <= d <= d1-α/2,
Здесь α - допускаемый (задаваемый) уровень значимости, α/2 и 1-α/2 равны соответствующим значениям функции распределения критерия Гири.
Подробнее о критерии Гири здесь
Часто при проверке гипотез статистическими критериями рассчитывают достигаемый уровень значимости p-value, который более информативен, чем проверка по допускаемому уровню значимости. Для двусторонних критериев
p-value = 2min[F(d),1-F(d)],                (2)
где F(d) –значение функции распределения статистики критерия Гири.
Иначе говоря, при F(d) >= 0,5
p-value = 2[1-F(d)]
При F(d) < 0,5
p-value = 2F(d)
Некоторые процентные точки для статистики (1), полученные статистическим моделированием в
MS Excel при моделировании 2*106 выборок для каждого n, показаны в таблице 1.
Таблица 1. Процентные точки d(F) для статистики d
n | F = α/2 | ||||||||
0,005 | 0,01 | 0,025 | 0,05 | 0,1 | 0,2 | 0,3 | 0,4 | 0,5 | |
30 | 0,698 | 0,709 | 0,726 | 0,740 | 0,756 | 0,774 | 0,787 | 0,797 | 0,807 |
50 | 0,719 | 0,728 | 0,741 | 0,752 | 0,764 | 0,778 | 0,788 | 0,796 | 0,803 |
n | F=1-α/2 | ||||||||
0,6 | 0,7 | 0,8 | 0,9 | 0,95 | 0,975 | 0,99 | 0,995 | ||
30 | 0,816 | 0,826 | 0,837 | 0,852 | 0,863 | 0,873 | 0,884 | 0,891 | |
50 | 0,811 | 0,818 | 0,827 | 0,839 | 0,848 | 0,856 | 0,865 | 0,871 |
Расчёт статистики (1) и достигаемого уровня значимости для критерия Гири предусмотрен в популярной программной среде R, версия 4.0.2 (2020-06-22). Как указывают разработчики R, это свободное программное обеспечение, и оно поставляется без всяких гарантий.
В таблице 2 приведены расчёты в R по некоторым критериям нормальности с использованием выборок из стандартного нормального распределения, сгенерированных в R. Расчёты по критерию Гири в R проводятся методом статистического моделирования (методом Монте-Карло), число повторов для каждой выборки задавали равным 1 млн. Обозначения критериев в табл. 2: ШУ – Шапиро-Уилка, ЛФ – Лиллиефорса, ω2 – омега-квадрат, АД – Андерсона-Дарлинга.
Таблица 2. Расчёты в R по критериям нормальности.
Выборка | Гири | ШУ | ЛФ | ω2 | АД | ||||
n | № | d | p по R | F=1-p | p по (3) | p по R | |||
30 | 1 | 0,8089 | 0,4767 | 0,5233 | 0,9534 | 0,6536 | 0,9931 | 0,9169 | 0,8833 |
2 | 0,8677 | 0,0369 | 0,9631 | 0,0738 | 0,1747 | 0,0885 | 0,1002 | 0,1261 | |
3 | 0,7804 | 0,7517 | 0,2483 | 0,4966 | 0,3212 | 0,2712 | 0,1439 | 0,1741 | |
50 | 1 | 0,7991 | 0,5558 | 0,4442 | 0,8884 | 0,9673 | 0,8527 | 0,9547 | 0,9543 |
2 | 0,7795 | 0,7831 | 0,2169 | 0,4338 | 0,4553 | 0,5829 | 0,4671 | 0,5144 | 3 | 0,7411 | 0,9748 | 0,0253 | 0,0506 | 0,0562 | 0,1329 | 0,0604 | 0,0517 |
p = 1 – F                       (3)
Кроме того, соотношение (3) с высокой точностью подтверждается сравнением p, рассчитанных в R, и 1-F, рассчитанных статистическим моделированием в MS Excel. Расхождения не превышали 0,001. При этом к значениям p, рассчитанным в R по другим критериям, значительно более близки p по Гири, рассчитанные по (3) и (2), чем p, рассчитанное по R.
Таким образом, значения p, полученные в R по критерию Гири, ошибочны. Видимо, разработчики не учли, что критерий Гири двусторонний. Значения p следует пересчитывать в значения F по (3), а затем в действительные значения p-value в соответствии с (2).
            Содержание
© В.В. Заляжных