Проблемы применения критерия Ирвина
В.В. Заляжных

Критерий Ирвина применяется для оценки сомнительных значений выборки на грубые ошибки. Критерий предложен Ирвином в 1925 году в статье [1] для нормально распределенной случайной величины. Расчётное значение критерия λ расч определяется по формуле

λ расч= (/хк - хк пред/)/σ                 (1)

где хк – сомнительное значение, хк пред – предыдущее значение в вариационном ряду, если хк оценивается от максимальных значений вариационного ряда (или последующее, если хк оценивается от минимальных значений вариационного ряда); σ – генеральное среднеквадратическое отклонение (СКО) непрерывной случайной величины.

При λ расч > λ табл считают, что хк – грубая ошибка. Здесь λ табл– соответствующее табличное значение (процентная точка) критерия Ирвина. В статье-первоисточнике [1] для табличных значений, взятых с шагом 0,1, рассчитаны соответствующие уровни значимости. В более поздних источниках, например, в [2] по данным [3], табличные значения приведены в традиционном виде, т.е. при общепринятых уровнях значимости – 0,01, 0,05 и 0,1.

Критерий Ирвина широко применяется при статистической обработке данных, например, при обработке результатов испытаний, предварительном анализе временных рядов и др. Однако, как в статье-первоисточнике, так и в работах других авторов, встречаются сомнительные утверждения или предположения, порой противоречащие друг другу. Можно классифицировать их по следующим пунктам:

1. В статье-первоисточнике [1] табличные значения критерия Ирвина рассчитаны для нормально распределенной величины при известном генеральном СКО σ. При этом, учитывая, что σ чаще всего неизвестно, Ирвином предложено использовать в расчётах по формуле (1) выборочное СКО s, которое определяется по известной формуле

рисунок s6.1                 (2)

где n – объём выборки, хi – элементы выборки, х ср – среднее значение выборки.

Впоследствии использование выборочного СКО в формуле (1) и при этом процентных точек для генерального СКО стало часто применяться по умолчанию - [4], [5], [6], [7] и др. Однако приемлемость использования выборочного СКО в формуле (1), и при этом процентных точек для генерального СКО, не подтверждена.

2. В статье-первоисточнике [1] критерий Ирвина предложен для нормально распределенной случайной величины. Но часто можно встретить утверждение, что критерий может применяться при любом распределении - [4], или вид распределения просто не учитывают - [7] и др. В [5] и [6] предполагается проверка экспериментальных данных на соответствие распределениям Вейбулла, логнонормальному или нормальному, но при любом распределении, даже неопределённом, рекомендуется применение критерия Ирвина. Однако применение критерия без проверки на нормальность, а тем более при распределении, отличном от нормального, выглядит сомнительно.

3. Если первое (или последнее) значение вариационного ряда хк определяется как грубая ошибка, Ирвин предложил, после его исключения, аналогичным образом (уменьшая объём выборки на 1 и при соответствующих значениях процентных точек), оценивать на грубую ошибку следующее значение вариационного ряда. Однако справедливость такой оценки требует проверки.

4. Если первое (или последнее) значение вариационного ряда хк по критерию Ирвина не определяется как грубая ошибка, в [1] предложено, в случае сомнительности следующего (второго с того или иного края вариационного ряда) значения, оценивать его на грубую ошибку по той же выборке, но при иных значениях процентных точек. Если при этом второе значение определяется как грубая ошибка, соответственно грубой ошибкой считают и первое значение. В [1] для табличных значений, взятых с шагом 0,1, рассчитаны соответствующие уровни значимости для известного генерального СКО σ. При этом предполагается использовать в расчётах по формуле (1) выборочное СКО s, которое определяется по формуле (2). Но, как и для пункта 1 данной статьи, приемлемость использования выборочного СКО в формуле (1), и при этом процентных точек для генерального СКО, не подтверждена.

5. В [1] и последующих публикациях, рассматривающих критерий Ирвина, не рассчитаны табличные значения критерия для оценки на грубую ошибку третьего, четвёртого и последующих значений вариационного ряда, если предыдущие не определяются как грубая ошибка. Более того, в некоторых из последующих публикаций предлагается оценивать на грубую ошибку подряд все значения вариационного ряда по формуле (1), выборочном СКО и процентных точках для первого значения по генеральному СКО - [4], [5], [6], что противоречит первоисточнику [1] и выглядит сомнительным.

6. Во многих публикациях процентные точки критерия Ирвина округлены до первого десятичного знака без обоснования этого.

Решение перечисленных проблем рассмотрено далее.

ЛИТЕРАТУРА

1. Irvin J.O. On a criterion for the rejection of outlying observation //Biometrika.1925. V. 17. P. 238 – 250.
2. Кобзарь А.И. Прикладная математическая статистика. – М.: ФИЗМАТЛИТ, 2006. – 816с.
3. Янко Я. Математико-статистические таблицы / Пер. с чеш. – М.: Госстатиздат, 1961.
4. Глудкин О.П. Методы и устройства испытаний РЭС и ЭВС.- М.: Высш. Шк., 1991.-336с.: ил.
5. ГОСТ 10518 – 88. Системы электрической изоляции. Общие требования к методам ускоренных испытаний на нагревостойкость.
6. ГОСТ Р 51372 – 99. Методы ускоренных испытаний на долговечность и сохраняемость при воздействии агрессивных и других специальных сред для технических изделий, материалов и систем материалов.
7. Минашкин В.Г. Садовникова Н.А. Шмойлова Р.А. Бизнес-статистика и прогнозирование. /Моск. гос. ун-т экономики, статистики и информатики. - М., 2008. – 154с.

        Далее     Содержание

© В.В. Заляжных
При использовании материалов ставьте ссылку.