Проведение свадьбы тамада в Челябинске.

Excel в статистическом моделировании
В.В.Заляжных

By calculation of the percentage points of test N.V. Smirnov (Grubbs) shows the possibility of using MS Excel for statistical computer modeling.

При анализе статистических закономерностей, например, нахождении процентных точек или оценке мощности какого-либо статистического критерия, эффективен метод статистического компьютерного моделирования (по существу, разновидность метода Монте-Карло).

При решении подобных задач в этом методе в соответствии с некоторым законом распределения вероятностей случайной величины моделируют N выборок объёмом n с использованием датчика случайных чисел, генерирующего случайные числа, имеющие теоретически равномерное распределение с параметрами 0 и 1. Это позволяет рассматривать их как значения моделируемой интегральной функции распределения. По сгенерированным случайным числам рассчитывают квантили моделируемого распределения, которые рассматривают как элементы выборки. При этом N должно быть достаточно большим. Например, при расчёте процентных точек статистических критериев для достижения высокой точности рекомендуется миллион выборок [1]. По смоделированным выборкам находят интересующие численные значения или эмпирические закономерности. Так, при нахождении процентных точек какого-либо статистического критерия рассчитывают его значение для каждой выборки, и затем отбрасывают наибольшие значения критерия, в доле, равной принятому уровню значимости. Наибольшее значение критерия после отбрасывания равно соответствующей процентной точке.

Универсальные программные пакеты статистического анализа малопригодны для таких исследований. Поэтому метод обычно реализуется путём создания соответствующего наукоёмкого программного обеспечения [1, 2]. Однако такой подход имеет ряд недостатков: исследователю необходимо умение программировать (что не всегда встречается среди инженерно-технических и научных работников), программа часто создаётся под одну или сравнительно узкий круг решаемых задач, существующее программное обеспечение малодоступно, а создание его требует определённого, иногда довольно значительного финансирования.

В то же время простым, универсальным и доступным инструментом статистического компьютерного моделирования может быть табличный процессор MS Excel. Автоматическое моделирование большого числа выборок при этом достигается применением зацикленного макроса, поскольку при каждом выполнении макроса случайные числа генерируются заново, и, следовательно, моделируется новая выборка. Макрос может быть написан на языке Visual Basic Application или с помощью программы-макрорекордера. Во втором случае вообще не обязательно знать программирование, однако код макроса не будет оптимальным, что может существенно замедлять расчёты. Под зацикленный макрос, созданный один раз, можно «подстроить» в электронной таблице почти любую абстрактную или конкретную задачу из теории вероятностей или математической статистики.

Возможность применения Excel при статистическом компьютерном моделировании проверяли путём расчёта значений процентных точек для критерия грубых ошибок (критерия аномальности) Н.В. Смирнова [3] и сравнения полученных значений с литературными данными.

Следует отметить, что ГОСТ Р ИСО 5725-2-2002 и ГОСТ Р 8-736-2011 рекомендуют использовать для анализа выборок на грубые ошибки при одном сомнительном значении в выборке критерий Граббса. Однако в таблицах процентных точек критерия Граббса в этих ГОСТах уровни значимости завышены в два раза, а если уменьшить их соответствующим образом, то критерий Граббса сводится к критерию Н.В.Смирнова [4]. Поэтому, видимо, корректно было бы название "критерий Смирнова(Граббса)", которое нередко встречаеся в литературе.

Расчёт процентных точек проводили для максимального значения выборки при объёмах выборок n 3, 5, 10, 50 и 100. Выборки моделировали из стандартного нормального распределения в количестве 106 для каждого объёма выборки. Значения критерия рассчитывали по выборочным оценкам параметров распределения. Статистика критерия Н.В.Смирнова tрасч для сомнительного значения рассчитывается по уравнению:

tрасч = |(xcср)|/s,

где xc – сомнительное значение, хср – среднее значение выборки, s – выборочное среднеквадратическое отклонение.

Рассчитанные в данном исследовании процентные точки критерия Н.В.Смирнова, а также приведённые в [1] (под названием критерия Граббса), приведены в таблице.

n По [1]По расчёту
1% 5%10% 1%5%10%
3 1,155 1,153 1,1481,155 1,153 1,148
5 1,749 1,672 1,6021,749 1,671 1,602
10 2,410 2,176 2,036 2,409 2,176 2,036
50 3,336 2,956 2,768 3,338 2,958 2,769
100 3,600 3,207 3,017 3,600 3,207 3,017
Как видно из таблицы, рассчитанные в Excel значения процентных точек отличаются от приведённых в [1] не более, чем на 0,001..0,002. Такое отклонение вполне приемлемо.

Не исключено, что при решении других задач отклонение от действительных значений может быть несколько больше. Возможно, следует в каждом случае проверять отклонения и при необходимости увеличивать количество моделируемых выборок. Но, так или иначе, табличный процессор MS Excel вполне приемлем для применения при статистическом компьютерном моделировании.

       ЛИТЕРАТУРА

1. Лемешко Б.Ю. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход: монография / Б.Ю. Лемешко, С.Б. Лемешко, Н.С. Постовалов, Е.В. Чимитова.- Новосибирск: Изд-во НГТУ, 2011. – 888 с.
2. Лемешко Б.Ю. О применении и мощности непараметрических критериев согласия Купера, Ватсона и Жанга / Б.Ю. Лемешко, А.А. Горбунова // Измерительная техника. 2013, № 5. – С. 3-9.
3. Степнов М.Н. Статистические методы обработки результатов механических испытаний: Справочник. – М.: Машиностроение, 1985. – 232 с.
4. Лемешко, Б.Ю. Расширение области применения критериев типа Граббса, используемых при отбраковке аномальных измерений / Б.Ю. Лемешко, С.Б. Лемешко / Измерительная техника. –2005. – № 6. – С. 13-19.

        Далее     Содержание

© В.В.Заляжных
При копировании материалов, пожалуйста, ставьте прямую индексируемую ссылку на сайт