ИСКЛЮЧЕНИЕ ГРУБЫХ ПОГРЕШНОСТЕЙ
Лабораторная работа № 4
Критерий Н.В. Смирнова

Результаты испытаний выборки могут содержать одно или несколько значений, заметно отличающихся от остальных. Необходимо выяснить причины появления таких подозрительных значений, т.е. оценить, случайно или закономерно их появление. В том случае, если их появление закономерно, необходимо принять соответствующие меры, например, настройку технологического процесса, измерительного (испытательного) оборудования и т.д. Если же появление подозрительных значений вызвано случайными причинами, можно оценить по тому или иному статистическому критерию грубых ошибок (аномальности), являются ли эти значения грубыми погрешностями (промахами, грубыми ошибками, выбросами). Если это грубые погрешности, их исключают из результатов испытаний. Даже при использовании критериев оценка на грубые погрешности в некоторой мере субъективна, поэтому имеет смысл проводить такую оценку по нескольким критериям, и уже после логического анализа причин появления подозрительных значений.

Для нормально распределенной случайной величины при оценке на грубые ошибки часто используют критерий Н.В.Смирнова (другие названия - критерий Граббса, критерий Смирнова(Граббса)).

При известной генеральной дисперсии σ2 (например, когда генеральная дисперсия достаточно точно известна по текущим измерениям) используют статистику критерия tα. Для этого строят вариационный ряд результатов испытаний (т.е. располагают их по возрастанию) и, если одно из крайних значений ряда сомнительно, вычисляют критерий для сомнительного значения хс по формуле

рисунок 4.1а         (4.1)

Расчётное значение сравнивают с табличным tα, приведённым в табл. 4.1. При tрасч > tα результат xс считают грубой ошибкой и отбрасывают.

Таблица 4.1.
n tα
α=0,1 α=0,05 α=0,01
31,501,742,22
41,701,942,43
51,842,082,57
61,942,182,68
72,022,272,76
82,092,332,83
92,152,392,88
102,202,442,93
112,242,482,97
122,282,523,01
132,322,563,04
142,352,593,07
152,382,623,10
162,412,643,12
172,432,673,15
182,462,693,17
192,482,713,19
202,502,733,21
212,522,753,22
222,542,773,24
232,562,783,26
242,572,803,27
252,592,823,28
302,702,933,40
402,703,023,48
502,863,083,54
1003,083,293,72
2503,343,533,95
5003,533,704,11
Пример 4.1. Проведены испытания выборки из партии бумаги на определение разрывной длины. При этом получены результаты, м: 3720, 3980, 3820, 3700, 3870, 3810, 3730, 3840, 3870, 3810. Генеральная дисперсия разрывной длины рассчитана ранее по результатам предыдущих испытаний, представленным в табл. 1.3. Оценить, при доверительной вероятности 0,9, имеется ли в полученных результатах грубая ошибка.

Возможный вариант выполнения примера 4.1 показан на рис.4.1.

рисунок 4.1

Рис. 4.1. Вариант расчёта для примера 4.1.

Вводим в лист EXCEL результаты испытаний и доверительную вероятность, рассчитываем уровень значимости и объём испытаний (с использованием функции СЧЁТ). Затем копируем значение дисперсии, рассчитанное в задании 3 лабораторной работы 1. Для этого используем команды Копировать и Специальная вставка. В диалоговом окне последней команды отмечаем указатель Значения, чтобы копировалась не формула, по которой рассчитывали дисперсию, а значение дисперсии. Результаты располагаем в вариационный ряд (по возрастанию), например, кнопкой рисунок 4.1b на панели инструментов с указанием в диалоговом окне Сортировать в пределах указанного выделения. В вариационном ряду сомнительно последнее значение ряда 3980. Однако, чтобы электронную таблицу можно было использовать при вводе других данных, проверим на выброс также и нижнее значение ряда.

Рассчитываем среднее значение ряда, при этом, чтобы таблица была пересчитываемой, в формулу СРЗНАЧ вводим диапазон примерно на 1000 значений. Далее находим tрасч для максимального и минимального значений вариационного ряда по формуле (4.1). При этом используем в расчётных формулах соответственно функции МАКС и МИН, чтобы электронная таблица была пересчитываемой. Пример формулы виден на рис. 4.1.

Для нахождения tα в электронную таблицу вводим табличные значения tα в пределах n от 3 до 25. Для более высоких значений n значения tα можно c приемлемой точностью рассчитать по уравнениям, указанным в табл. 4.2.

Таблица 4.2.
αtα при n>25
0,10,3053Ln(n) + 1,6513
0,050,2849Ln(n) + 1,9517
0,010,2648Ln(n) + 2,4839

Эти уравнения вводим в соответствующие ячейки таблицы значений критерия для строки >25, с указанием в них ссылки на значение n.

Затем находим табличное значение tα. Для этого удобно сначала найти номер строки и столбца таблицы критерия, на пересечении которых находится нужное значение.

Для нахождения номера столбца используем функцию ЕСЛИ. В её диалоговом окне вводим логическое условие α = 0,1 (разумеется, вместо символа α надо сделать ссылку на соответствующую ячейку), а в строке Значение_если_истина вводим соответствующий номер столбца, в данном случае 1. Затем устанавливаем курсор в конец формулы в строке формул, снова вводим функцию ЕСЛИ (нажав треугольник в правом верхнем углу окна программы и выбрав Другие функции…), вводим в строки диалогового окна α= 0,05 и соответствующий номер столбца. Таким же образом вводим α = 0,01 и соответствующий ему номер столбца.

Для нахождения номера строки также в формуле дважды используем функцию ЕСЛИ. Для первой функции ЕСЛИ используем логическое условие n <= 25 и ссылку на значение n. Для второй функции ЕСЛИ используем логическое условие n > 25 и значение 26, т.е. когда n > 25, значение tα будет находиться в строке 26 таблицы критерия по одной из формул табл. 4.2. В конце формулы для нахождения строки указываем -2, поскольку первая строка таблицы критерия соответствует n = 3, т.е. номер строки на 2 меньше значения n. В конечном счёте получим формулу для номера строки =ЕСЛИ(E6<=25;E6)+ЕСЛИ(E6>25;26)-2. В этой формуле суммируются два значения, полученных по функциям ЕСЛИ, но по одной из функций заведомо будет получен ноль, т.к. в любом случае одно из логических условий будет неверно. Таким образом, получаем номер строки либо по первой, либо по второй функции ЕСЛИ.

По найденным номерам столбца и строки находим tα с использованием функции ИНДЕКС. На первом шаге выбираем Массив;номер_строки;номер_столбца. На втором шаге в дилоговом окне функции ИНДЕКС в качестве массива указываем диапазон значений tα, а также ссылки на строку и столбец.

Далее определяем, являются ли крайние значения вариационного ряда грубыми ошибками, используя функцию ЕСЛИ. Например, для максимального значения в диалоговое окно вводим логическое условие tрасч > tα, для истинности этого условия вводим строку «Гр. Ошибка», для ложности этого условия вводим строку «Не ошибка». Для ячеек, где выводятся эти сообщения, можно задать для наглядности цветной шрифт, например, красный.

В результате реализации электронной таблицы выводятся сообщения, являются ли крайние значения вариационного ряда грубыми ошибками. Однако при этом отбрасывать грубые ошибки следует по одной. Так, если максимальное значение ряда будет равно 5000 (попробуйте подставить это значение вместо 3980), оба крайних значения определятся как грубые ошибки. Но если по здравом рассуждении отбросить 5000 как грубую ошибку, то минимальное значение ряда 3700 уже не определяется как грубая ошибка.

При нормальном распределении исследуемого параметра и объёме испытаний не более 25 используют статистику критерия Н.В. Смирнова uα (если объём испытаний больше 25, выборочное СКО достаточно близко к генеральному, и можно использовать статистику tα). Строят вариационный ряд результатов испытаний, и, если одно из крайних значений ряда сомнительно, вычисляют критерий для сомнительного значения хc по формуле

рисунок 4.1c

Расчётное значение сравнивают с табличным uα, приведённым в табл. 4.2. При uрасч > uα результат xс считают грубой ошибкой и отбрасывают.

Таблица 4.2.
n uα
α=0,1 α=0,05 α=0,01
31,151,151,15
41,421,461,49
51,601,671,75
61,731,821,94
71,831,942,10
81,912,032,22
91,982,112,32
102,032,182,41
112,092,232,48
122,132,292,55
132,172,332,61
142,212,372,66
152,252,412,70
162,282,442,75
172,312,482,78
182,342,502,82
192,362,532,85
202,382,562,88
212,412,582,91
222,432,602,94
232,452,622,96
242,472,642,99
252,492,663,01
Пример 4.2. По результатам испытаний, приведённым в примере 4.1, оценить для различных доверительных вероятностей, имеется ли грубая ошибка, если генеральная дисперсия разрывной длины заранее неизвестна. Провести оценку также в случае, если последнее значение вариационного ряда будет не 3980, а 4010. Для выполнения примера достаточно скопировать электронную таблицу, созданную в примере 4.1, ввести табличные значения критерия Смирнова uα вместо табличных значений tα, рассчитать выборочное СКО s вместо генерального σ, (подумайте, какой при этом задать диапазон) и изменить диапазон для расчёта хср (как изменить?). После этого можно провести оценку выбросов.

Задание.
1. Выполнить расчёты по примеру 4.1. Определить, содержат ли данные грубую ошибку при доверительных вероятностях 0,95 и 0,99.
2. Скопировать электронную таблицу примера 4.1 на другой лист и оценить, имеется ли грубая ошибка при доверительных вероятностях 0,9, 0,95 и 0,99 в ряду значений некоторого нормально распределённого параметра, полученного по результатам испытаний: 431 442 288 290 295 310 319 587 335 335 343 455 351 355 367 379 379 383 404 426 447 367 375 467 486 387 391 391 407 420. При этом генеральная дисперсия заранее неизвестна. Учитывая, что объём испытаний больше 25, модифицировать электронную таблицу так, чтобы генеральное среднеквадратическое отклонение определялось по данным испытаний, с учётом возможности пересчёта таблицы при вводе других исходных данных.
3. Выполнить расчёты по примеру 4.2.

        Далее     Содержание

© В.В.Заляжных

При использовании материалов ставьтепрямую индексируюмую ссылку