Критерий Гири в среде R
В.В. Заляжных

  Содержание            
Критерий Гири в среде R Критерий Гири применяется для проверки гипотезы о соответствии непрерывной случайной величины нормальному распределению по выборке из неё. По данным [1] является одним из наиболее мощных критериев нормальности. Статистика критерия:

рисунок st18-1,                                 (1)

где рисунок st18-2, рисунок st18-3, n – объём выборки, xi – значения выборки.

Критерий двусторонний, гипотеза нормальности не отвергается, если

dα/2 <= d <= d1-α/2,

Здесь α - допускаемый (выбираемый) уровень значимости. Индексы α/2 и 1-α/2 равны соответствующим значениям функции распределения критерия Гири.

Часто при проверке гипотез статистическими критериями рассчитывают достигаемый уровень значимости p-value, который более информативен, чем проверка по допускаемому уровню значимости.

p-value = 2min[F(d),1-F(d)],                (2)

где F(d) –значение функции распределения статистики критерия Гири.

Иначе говоря, при F(d) >= 0,5

p-value = 2[1-F(d)]

При F(d) < 0,5

p-value = 2F(d)

Процентные точки для статистики (1), полученные статистическим моделированием в MS Excel при моделировании 2 млн. выборок для каждого n, показаны в таблице 1.

Таблица 1. Процентные точки d(F) для статистики d критерия Гири

n F = α/2
0,005 0,01 0,025 0,05 0,1 0,2 0,3 0,4 0,5
10 0,6443 0,6632 0,6913 0,7147 0,7408 0,7709 0,7919 0,8093 0,8249
15 0,663 0,6794 0,7031 0,7229 0,7448 0,7703 0,788 0,8025 0,8155
20 0,6773 0,6918 0,7126 0,7298 0,749 0,7713 0,7868 0,7995 0,8111
30 0,6976 0,7094 0,7261 0,74 0,7557 0,7739 0,7866 0,7971 0,8067
40 0,7104 0,7204 0,7347 0,7467 0,7602 0,776 0,7869 0,7961 0,8045
50 0,7192 0,7281 0,7409 0,7516 0,7636 0,7776 0,7875 0,7957 0,8032
60 0,726 0,7341 0,7457 0,7553 0,7661 0,7789 0,7879 0,7954 0,8022
70 0,7314 0,7387 0,7493 0,7582 0,7682 0,78 0,7883 0,7953 0,8016
80 0,7356 0,7424 0,7523 0,7605 0,7699 0,7809 0,7887 0,7952 0,8012
90 0,7392 0,7456 0,7548 0,7626 0,7713 0,7817 0,789 0,7951 0,8008
100 0,7424 0,7484 0,757 0,7643 0,7726 0,7824 0,7893 0,7952 0,8005
150 0,7526 0,7574 0,7644 0,7702 0,7769 0,7849 0,7905 0,7953 0,7996
200 0,7587 0,7628 0,7688 0,7738 0,7796 0,7864 0,7913 0,7954 0,7992
300 0,7659 0,7692 0,774 0,7781 0,7828 0,7883 0,7923 0,7957 0,7988
500 0,7731 0,7757 0,7793 0,7825 0,7861 0,7904 0,7934 0,796 0,7984
700 0,7771 0,7792 0,7822 0,7849 0,7879 0,7915 0,794 0,7962 0,7983
1000 0,7805 0,7822 0,7847 0,7869 0,7894 0,7925 0,7946 0,7964 0,7982
n F=1-α/2
0,6 0,7 0,8 0,9 0,95 0,975 0,99 0,995
10 0,8398 0,855 0,872 0,8941 0,9111 0,9244 0,9387 0,9476
15 0,8282 0,8414 0,8561 0,8754 0,8903 0,9026 0,916 0,9247
20 0,8223 0,834 0,8471 0,8644 0,8779 0,8891 0,9015 0,9096
30 0,8161 0,8258 0,8368 0,8516 0,8632 0,8729 0,8839 0,891
40 0,8126 0,8212 0,8309 0,844 0,8545 0,8632 0,8729 0,8794
50 0,8105 0,8183 0,8271 0,8389 0,8484 0,8564 0,8653 0,8713
60 0,809 0,8161 0,8242 0,8352 0,844 0,8513 0,8598 0,8654
70 0,8079 0,8145 0,8221 0,8323 0,8404 0,8474 0,8553 0,8605
80 0,807 0,8132 0,8203 0,83 0,8377 0,8443 0,8518 0,8568
90 0,8064 0,8122 0,819 0,8281 0,8354 0,8416 0,8487 0,8534
100 0,8058 0,8114 0,8178 0,8265 0,8335 0,8394 0,8461 0,8507
150 0,804 0,8086 0,8138 0,821 0,8269 0,8318 0,8375 0,8413
200 0,8029 0,8069 0,8115 0,8178 0,8229 0,8273 0,8323 0,8357
300 0,8019 0,8051 0,8089 0,8141 0,8183 0,8219 0,8261 0,8288
500 0,8008 0,8034 0,8063 0,8104 0,8137 0,8165 0,8198 0,822
700 0,8003 0,8024 0,8049 0,8084 0,8112 0,8136 0,8164 0,8183
1000 0,7998 0,8017 0,8037 0,8066 0,809 0,8111 0,8134 0,815

Расчёт статистики (1) и достигаемого уровня значимости для критерия Гири предусмотрен в популярной программной среде R, версия 4.0.2 (2020-06-22). Как указывают разработчики R, это свободное программное обеспечение, и оно поставляется без всяких гарантий.

В таблице 2 приведены расчёты в R по некоторым критериям нормальности с использованием выборок из стандартного нормального распределения, сгенерированных в R. Расчёты по критерию Гири в R проводятся методом статистического моделирования (методом Монте-Карло), число повторов для каждой выборки задавали равным 1 млн. Обозначения критериев в табл. 2: ШУ – Шапиро-Уилка, ЛФ – Лиллиефорса, ω2 омега-квадрат, АД – Андерсона-Дарлинга.

Таблица 2. Расчёты в R по критериям нормальности.

Выборка Гири ШУ ЛФ ω2 АД
n d p по R F=1-p p по (3) p по R
30 1 0,8089 0,4767 0,5233 0,9534 0,6536 0,9931 0,9169 0,8833
2 0,8677 0,0369 0,9631 0,0738 0,1747 0,0885 0,1002 0,1261
3 0,7804 0,7517 0,2483 0,4966 0,3212 0,2712 0,1439 0,1741
50 1 0,7991 0,5558 0,4442 0,8884 0,9673 0,8527 0,9547 0,9543
2 0,7795 0,7831 0,2169 0,4338 0,4553 0,5829 0,4671 0,5144
3 0,7411 0,9748 0,0253 0,0506 0,0562 0,1329 0,0604 0,0517
Сопоставив данные табл.2 и табл.1, нетрудно убедиться, что для критерия Гири

p = 1 – F                       (3)

Кроме того, соотношение (3) с высокой точностью подтверждается сравнением p, рассчитанных в R, и 1-F, рассчитанных статистическим моделированием в MS Excel. Расхождения не превышали 0,001. При этом к значениям p, рассчитанным в R по другим критериям, значительно более близки p по Гири, рассчитанные по (3) и (2), чем p, рассчитанное по R.

Таким образом, значения p, полученные в R по критерию Гири, ошибочны. Видимо, разработчики не учли, что критерий Гири двусторонний. Значения p следует пересчитывать в значения F по (3), а затем в действительные значения p-value в соответствии с (2).

ЛИТЕРАТУРА
1. . Ю. Лемешко, Критерии проверки отклонения распределения от нормального закона: Руководство по применению, Серия “Научная мысль”, ИНФРА-М, М., 2015, 160 с.

            Содержание

© В.В. Заляжных
Отзывы, замечания, предложения, комментарии - z9876543@rambler.ru
При использовании материалов ссылка на сайт обязательна
Рейтинг@Mail.ru